背景技術(shù):
現(xiàn)在的語(yǔ)音助理包括蘋(píng)果的siri,谷歌的googlenow和微軟的cortana。這種目前的系統(tǒng)的第一個(gè)問(wèn)題不允許用戶(hù)與個(gè)人助理像用戶(hù)與人一樣對(duì)話(huà)地交互。這種目前的系統(tǒng)的第二個(gè)問(wèn)題是用戶(hù)經(jīng)常不被理解或被誤解,或者目前的系統(tǒng)快速默認(rèn)為網(wǎng)絡(luò)搜索。這種目前的系統(tǒng)的第三個(gè)問(wèn)題是它們不主動(dòng)地協(xié)助其用戶(hù)。第四個(gè)問(wèn)題是這種目前的系統(tǒng)被限制在與它們交互的應(yīng)用,例如,這樣的語(yǔ)音助理可以?xún)H與有限數(shù)量的應(yīng)用交互。第五個(gè)問(wèn)題是這種目前的系統(tǒng)不利用用戶(hù)的上下文。第六個(gè)問(wèn)題是這種目前的系統(tǒng)不與其他語(yǔ)音助理集成。
技術(shù)實(shí)現(xiàn)要素:
在一個(gè)實(shí)施例中,語(yǔ)音和連接引擎提供語(yǔ)音助理,其補(bǔ)救現(xiàn)有語(yǔ)音助理的上述缺點(diǎn)一個(gè)或多個(gè)。在一個(gè)實(shí)施例中,語(yǔ)音和連接引擎使用不可知和模塊化方法到一個(gè)或多個(gè)的自動(dòng)語(yǔ)音識(shí)別、自然語(yǔ)言理解和文本到語(yǔ)音組件,從而允許頻繁地更新這些組件,并且簡(jiǎn)化系統(tǒng)對(duì)不同語(yǔ)言的適應(yīng)。在一個(gè)實(shí)施例中,語(yǔ)音和連接引擎管理上下文以便向用戶(hù)提供更自然和類(lèi)似人的對(duì)話(huà),并且增加對(duì)用戶(hù)的請(qǐng)求的理解的準(zhǔn)確性并減少接收請(qǐng)求和對(duì)請(qǐng)求執(zhí)行之間的時(shí)間量。在一個(gè)實(shí)施例中,語(yǔ)音和連接引擎提供了工作繞行來(lái)獲得用戶(hù)的預(yù)期請(qǐng)求,而不是立即默認(rèn)為web搜索。在一個(gè)實(shí)施例中,語(yǔ)音和連接引擎利用模塊與用戶(hù)設(shè)備的各種應(yīng)用(例如電話(huà),統(tǒng)一消息,新聞,媒體,天氣,用于web搜索的瀏覽器等)交互,并且當(dāng)添加和更新應(yīng)用程序時(shí)可以單獨(dú)地添加或修改模塊。在一個(gè)實(shí)施例中,用于與應(yīng)用交互的模塊提供用戶(hù)命令中的標(biāo)準(zhǔn)化水平。例如,用戶(hù)可以通過(guò)facebook,電子郵件或微博使用口頭請(qǐng)求“發(fā)送消息”來(lái)發(fā)送消息。
在一個(gè)實(shí)施例中,該方法包括在第一設(shè)備處接收來(lái)自用戶(hù)的請(qǐng)求第一動(dòng)作的第一音頻輸入;在第一音頻輸入上執(zhí)行自動(dòng)語(yǔ)音識(shí)別;獲取用戶(hù)的上下文;基于第一音頻輸入的語(yǔ)音識(shí)別來(lái)執(zhí)行自然語(yǔ)言理解;并基于用戶(hù)的上下文和自然語(yǔ)言理解采取第一動(dòng)作。
其他方面包括用于這些和其他創(chuàng)新特征的對(duì)應(yīng)方法、系統(tǒng)、裝置和計(jì)算機(jī)程序產(chǎn)品。這些和其他實(shí)現(xiàn)可以各自可選地包括以下特征中的一個(gè)或多個(gè),例如,操作進(jìn)一步包括:所述第一音頻輸入響應(yīng)于內(nèi)部事件被接收。例如,操作進(jìn)一步包括:在沒(méi)有用戶(hù)輸入的情況下啟動(dòng)語(yǔ)音助理,并且在語(yǔ)音助理的啟動(dòng)之后從用戶(hù)接收第一音頻輸入。例如,操作進(jìn)一步包括以下各項(xiàng)中的一項(xiàng)或多項(xiàng):上下文包括上下文歷史、對(duì)話(huà)歷史、用戶(hù)簡(jiǎn)檔、用戶(hù)歷史、位置以及當(dāng)前上下文域中。例如,操作進(jìn)一步包括:在采取動(dòng)作之后,從用戶(hù)接收請(qǐng)求與第一動(dòng)作無(wú)關(guān)的第二動(dòng)作的第二音頻輸入;采取第二動(dòng)作;從用戶(hù)接收請(qǐng)求與第一動(dòng)作相關(guān)的第三動(dòng)作的第三音頻輸入,第三音頻輸入缺失用于采取第三動(dòng)作的信息;使用上下文獲取缺失的信息;以及采取第三動(dòng)作。例如,操作進(jìn)一步包括:缺失的信息是以下各項(xiàng)中的一項(xiàng)或多項(xiàng):動(dòng)作、演員以及實(shí)體。例如,操作進(jìn)一步包括:在第二設(shè)備處從用戶(hù)接收請(qǐng)求與第一動(dòng)作相關(guān)的第二動(dòng)作的第二音頻輸入,第二音頻輸入缺失用于采取第二動(dòng)作的信息;使用上下文獲取缺失的信息;并基于上下文采取第二個(gè)動(dòng)作。例如,操作進(jìn)一步包括:確定上下文和第一音頻輸入缺失用于采取第一動(dòng)作的信息;確定缺夫的信息是什么信息;以及提示用戶(hù)提供供應(yīng)缺失的信息的第二音頻輸入。例如,操作進(jìn)一步包括:確定用于采取第一動(dòng)作的信息不能從第一音頻輸入獲得;確定缺失的信息是什么信息;并且提示用戶(hù)提供供應(yīng)不能從第一音頻輸入獲得的信息的第二音頻輸入。例如,操作進(jìn)一步包括:確定用于采取第一動(dòng)作的信息不能從第一音頻輸入獲得;確定用于采取第一動(dòng)作的信息缺失什么信息;提供由用戶(hù)對(duì)多個(gè)選項(xiàng)的選擇,選項(xiàng)供應(yīng)用于完成第一動(dòng)作的潛在信息;以及接收從多個(gè)選項(xiàng)選擇第一選項(xiàng)的第二音頻輸入。
參考附圖和描述,本文所描述的特征和優(yōu)點(diǎn)不是全包的,并且許多附加特征和優(yōu)點(diǎn)對(duì)于本領(lǐng)域普通技術(shù)人員中的一個(gè)將是顯而易見(jiàn)的。此外,應(yīng)當(dāng)注意,說(shuō)明書(shū)中使用的語(yǔ)言主要是為了可讀性和說(shuō)明目的而選擇的,而不是限制本發(fā)明主題的范圍。
附圖說(shuō)明
本公開(kāi)通過(guò)示例的方式,而不通過(guò)其中相同的附圖標(biāo)記用于指代相似的元件的附圖的圖的限制的方式被圖示。
圖1是圖示根據(jù)一個(gè)實(shí)施例用于語(yǔ)音和連接平臺(tái)的示例系統(tǒng)的框圖。
圖2是圖示根據(jù)一個(gè)實(shí)施例示例性計(jì)算設(shè)備的框圖。
圖3是圖示根據(jù)一個(gè)實(shí)施例客戶(hù)端語(yǔ)音和連接引擎的示例的框圖。
圖4是圖示根據(jù)一個(gè)實(shí)施例服務(wù)器端語(yǔ)音和連接引擎的示例的框圖。
圖5是根據(jù)一些實(shí)施例使用語(yǔ)音和連接平臺(tái)用于接收和處理請(qǐng)求的示例方法的流程圖。
圖6是根據(jù)一些實(shí)施例用于獲得附加信息以確定用戶(hù)的預(yù)期請(qǐng)求的示例方法的流程圖。
圖7是根據(jù)另一實(shí)施例使用語(yǔ)音和連接平臺(tái)接收和處理請(qǐng)求的示例方法。
圖8是根據(jù)一個(gè)實(shí)施例管理語(yǔ)音和連接平臺(tái)中的上下文的示例的框圖。
具體實(shí)施方式
圖1是圖示根據(jù)一個(gè)實(shí)施例用于語(yǔ)音和連接平臺(tái)的示例系統(tǒng)100的框圖。所圖示的系統(tǒng)100包括客戶(hù)設(shè)備106a...106n,自動(dòng)語(yǔ)音(speech)識(shí)別(asr)服務(wù)器110,語(yǔ)音(voice)和連接服務(wù)器122以及文本到語(yǔ)音(tts)服務(wù)器116,其為了相互交互經(jīng)由網(wǎng)絡(luò)102通信地耦合。例如,客戶(hù)設(shè)備106a...106n可以分別經(jīng)由信號(hào)線(xiàn)104a...104n耦合到網(wǎng)絡(luò)102,并且可以被用戶(hù)112a...112n(也被單獨(dú)地和共同地稱(chēng)為為用戶(hù)112)訪(fǎng)問(wèn),如線(xiàn)110a~110n所圖示的。自動(dòng)語(yǔ)音識(shí)別服務(wù)器110可以經(jīng)由信號(hào)線(xiàn)108耦合到網(wǎng)絡(luò)102.語(yǔ)音和連接服務(wù)器122可以經(jīng)由信號(hào)線(xiàn)120耦合到網(wǎng)絡(luò)102。文本到語(yǔ)音服務(wù)器116可以經(jīng)由信號(hào)線(xiàn)114連接到網(wǎng)絡(luò)102。在附圖標(biāo)記中命名“a”和“n”的使用表示具有該命名的任何數(shù)量的那些元件可以包括在系統(tǒng)100中。
網(wǎng)絡(luò)102可以包括任何數(shù)量的網(wǎng)絡(luò)和/或網(wǎng)絡(luò)類(lèi)型。例如,網(wǎng)絡(luò)102可以包括但不限于一個(gè)或多個(gè)局域網(wǎng)(lan),廣域網(wǎng)(wan)(例如,因特網(wǎng)),虛擬專(zhuān)用網(wǎng)(vpn),移動(dòng)網(wǎng)絡(luò)(例如,蜂窩網(wǎng)絡(luò)),無(wú)線(xiàn)廣域網(wǎng)(wwan),wi-fi網(wǎng)絡(luò),wimax網(wǎng)絡(luò),藍(lán)牙通信網(wǎng)絡(luò),對(duì)等網(wǎng)絡(luò),通過(guò)其多個(gè)設(shè)備可以通信的其他互連數(shù)據(jù)路徑,它們的各種組合等。由網(wǎng)絡(luò)102傳遞的數(shù)據(jù)可以包括被路由到耦合到網(wǎng)絡(luò)102的指定計(jì)算設(shè)備的分組數(shù)據(jù)(例如,因特網(wǎng)協(xié)議(ip)數(shù)據(jù)分組)。在一些實(shí)現(xiàn)中,網(wǎng)絡(luò)102可以包括互聯(lián)系統(tǒng)100的計(jì)算設(shè)備的有線(xiàn)和無(wú)線(xiàn)(例如,地面或基于衛(wèi)星收發(fā)器)網(wǎng)絡(luò)軟件和/或硬件的組合。例如,網(wǎng)絡(luò)102可以包括分組交換設(shè)備,其基于包括在數(shù)據(jù)分組的頭部中的信息將數(shù)據(jù)分組路由到各種計(jì)算設(shè)備。
通過(guò)網(wǎng)絡(luò)102交換的數(shù)據(jù)可以使用包括超文本標(biāo)記語(yǔ)言(html),可擴(kuò)展標(biāo)記語(yǔ)言(xml),javascript對(duì)象符號(hào)(json),逗號(hào)分隔值(csv),java數(shù)據(jù)庫(kù)連接(jdbc),開(kāi)放數(shù)據(jù)庫(kù)連接(odbc)等的技術(shù)和/或格式來(lái)表示。此外,鏈接的所有或部分可以使用傳統(tǒng)的加密技術(shù)來(lái)加密,例如安全套接層(ssl),安全http(https)和/或虛擬專(zhuān)用網(wǎng)絡(luò)(vpn)或互聯(lián)網(wǎng)協(xié)議安全(ipsec)。在另一個(gè)實(shí)施例中,實(shí)體可以使用定制和/或?qū)S脭?shù)據(jù)通信技術(shù),而不是上述的數(shù)據(jù)通信技術(shù),或除此之外的數(shù)據(jù)通信技術(shù)。根據(jù)實(shí)施例,網(wǎng)絡(luò)102還可以包括到其他網(wǎng)絡(luò)的鏈路。另外,通過(guò)網(wǎng)絡(luò)102交換的數(shù)據(jù)可以被壓縮。
客戶(hù)設(shè)備106a...106n(也被單獨(dú)地和統(tǒng)稱(chēng)為客戶(hù)設(shè)備106)是具有數(shù)據(jù)處理和通信能力的計(jì)算設(shè)備。雖然圖1圖示了兩個(gè)客戶(hù)設(shè)備106,但是本說(shuō)明書(shū)應(yīng)用到具有一個(gè)或多個(gè)客戶(hù)設(shè)備106的任何系統(tǒng)架構(gòu)。在一些實(shí)施例中,客戶(hù)設(shè)備106可以包括處理器(例如,虛擬的,物理的等)、存儲(chǔ)器、電源、網(wǎng)絡(luò)接口和/或其他軟件和/或硬件部件,諸如顯示器、圖形處理器、無(wú)線(xiàn)收發(fā)器、鍵盤(pán)、揚(yáng)聲器、照相機(jī)、傳感器、固件、操作系統(tǒng)、驅(qū)動(dòng)器、各種物理連接接口(例如,usb,hdmi等)??蛻?hù)設(shè)備106a...106n可以使用無(wú)線(xiàn)和/或有線(xiàn)連接經(jīng)由網(wǎng)絡(luò)102與彼此和系統(tǒng)100的其他實(shí)體耦合并與之通信。
客戶(hù)設(shè)備106的示例可以包括但不限于汽車(chē),機(jī)器人,移動(dòng)電話(huà)(例如,功能電話(huà),智能電話(huà)等),平板電腦,筆記本電腦,桌面電腦,上網(wǎng)本,服務(wù)器設(shè)備,服務(wù)器,虛擬機(jī),電視,機(jī)頂盒,媒體流設(shè)備,便攜式媒體播放器,導(dǎo)航設(shè)備,個(gè)人數(shù)字助理等。雖然在圖1中描繪了兩個(gè)以上客戶(hù)設(shè)備106,系統(tǒng)100可以包括任何數(shù)量的客戶(hù)設(shè)備106。此外,客戶(hù)設(shè)備106a...106n可以是相同或不同類(lèi)型的計(jì)算設(shè)備。例如,在一個(gè)實(shí)施例中,客戶(hù)設(shè)備106a是汽車(chē),客戶(hù)設(shè)備106n是移動(dòng)電話(huà)。
在所描繪的實(shí)現(xiàn)中,客戶(hù)設(shè)備106a包括客戶(hù)端語(yǔ)音和連接引擎109a、自動(dòng)語(yǔ)音識(shí)別引擎111a和文本到語(yǔ)音引擎119a的實(shí)例。盡管未示出,客戶(hù)設(shè)備106n可以包括其自身的客戶(hù)端語(yǔ)音和連接引擎109n、自動(dòng)語(yǔ)音識(shí)別引擎111n和文本到語(yǔ)音引擎119n的實(shí)例。在一個(gè)實(shí)施例中,客戶(hù)端語(yǔ)音和連接引擎109、自動(dòng)語(yǔ)音識(shí)別引擎111和文本到語(yǔ)音引擎119的實(shí)例可以存儲(chǔ)在客戶(hù)設(shè)備106的存儲(chǔ)器中并且可由客戶(hù)設(shè)備106的處理器執(zhí)行。
文本到語(yǔ)音(tts)服務(wù)器116,自動(dòng)語(yǔ)音識(shí)別(asr)服務(wù)器110和語(yǔ)音和連接服務(wù)器122可以包括具有數(shù)據(jù)處理、存儲(chǔ)和通信能力的一個(gè)或多個(gè)計(jì)算設(shè)備。例如,這些實(shí)體110、116、122可以包括一個(gè)或多個(gè)硬件服務(wù)器,服務(wù)器陣列,存儲(chǔ)設(shè)備,系統(tǒng)等,和/或可以是集中式或分布式/基于云的。在一些實(shí)現(xiàn)中,這些實(shí)體110、116、122可以包括一個(gè)或多個(gè)虛擬服務(wù)器,其通過(guò)抽象層(例如,虛擬機(jī)管理器)在主機(jī)服務(wù)器環(huán)境中操作并訪(fǎng)問(wèn)主機(jī)服務(wù)器的物理硬件(包括,例如,處理器、內(nèi)存、存儲(chǔ)器、網(wǎng)絡(luò)接口等)。
自動(dòng)語(yǔ)音識(shí)別(asr)引擎111執(zhí)行自動(dòng)語(yǔ)音識(shí)別。例如,在一個(gè)實(shí)施例中,asr引擎111接收音頻(例如語(yǔ)音)輸入并將音頻轉(zhuǎn)換為文本串。asr引擎111的示例包括但不限于nuance,googlevoice,telisma/onmobile等。
根據(jù)實(shí)施例,asr引擎111可以是板載,非板載或其組合。例如,在一個(gè)實(shí)施例中,asr引擎111是板載,asr由asr引擎111a在客戶(hù)設(shè)備106上執(zhí)行,并且可以省略asr引擎111x和asr服務(wù)器110。在另一示例中,在一個(gè)實(shí)施例中,asr引擎111是非板載的(例如,流式傳輸或中繼),并且asr由asr引擎111x在asr服務(wù)器110上執(zhí)行,并且可以省略asr引擎111a。在又一示例中,asr由asr引擎111a在客戶(hù)設(shè)備106和由asr引擎111x在asr服務(wù)器110兩者執(zhí)行。
文本到語(yǔ)音(tts)引擎119執(zhí)行文本到語(yǔ)音。例如,在一個(gè)實(shí)施例中,tts引擎119接收文本或其他非語(yǔ)音輸入(例如,對(duì)附加信息的請(qǐng)求,如下文參考圖3的工作繞行引擎328所討論的),并輸出通過(guò)客戶(hù)設(shè)備106的音頻輸出呈現(xiàn)給用戶(hù)112的人類(lèi)可識(shí)別語(yǔ)音。asr引擎111的示例包括但不限于nuance,googlevoice,telisma/onmobile,creawave,acapella等。
根據(jù)實(shí)施例,tts引擎119可以是板載,非板載或其組合。例如,在一個(gè)實(shí)施例中,tts引擎119是板載,并且tts由tts引擎119a在客戶(hù)設(shè)備106上執(zhí)行,并且可以省略tts引擎119x和tts服務(wù)器116。在另一示例中,在一個(gè)實(shí)施例中,tts引擎119在非板載(例如,流式傳輸或中繼),并且tts由tts引擎119x在tts服務(wù)器116上執(zhí)行,并且可以省略tts引擎119a。在另一示例中,tts由tts引擎116a在客戶(hù)設(shè)備106和由tts引擎116x在tts服務(wù)器116兩者執(zhí)行。
在所圖示實(shí)施例中,語(yǔ)音和連接引擎被分成兩個(gè)部件109、124;一個(gè)客戶(hù)和一個(gè)服務(wù)器端。根據(jù)實(shí)施例,語(yǔ)音和連接引擎可以是板載,非板載或兩者的混合。在另一示例中,在一個(gè)實(shí)施例中,語(yǔ)音和連接引擎是板載的,并且下面關(guān)于圖3和圖4討論的特征和功能在客戶(hù)設(shè)備106上執(zhí)行。在另一示例中,在一個(gè)實(shí)施例中,語(yǔ)音和連接引擎是非板載的,并且下面關(guān)于圖3和圖4討論的特征和功能在語(yǔ)音和連接服務(wù)器122上執(zhí)行。在另一個(gè)示例中,在一個(gè)實(shí)施例中,語(yǔ)音和連接引擎是混合的,并且下面關(guān)于圖3和圖4討論的特征和功能在客戶(hù)端語(yǔ)音和連接引擎109與服務(wù)器端語(yǔ)音和連接引擎124之間被分割。盡管應(yīng)當(dāng)認(rèn)識(shí)到,特征和功能可以與圖3和4描述的實(shí)施例不同的被劃分。在一個(gè)實(shí)施例中,語(yǔ)音和連接引擎提供語(yǔ)音助理,其使用上下文和人工智能并提供與用戶(hù)112的自然對(duì)話(huà),并且可以解決用戶(hù)請(qǐng)求中的缺點(diǎn)(例如,語(yǔ)音識(shí)別失敗)。
在一個(gè)實(shí)施例中,客戶(hù)端(板載)語(yǔ)音和連接引擎109管理對(duì)話(huà),并連接到服務(wù)器端(非板載)語(yǔ)音和連接平臺(tái)124用于擴(kuò)展語(yǔ)義處理。這樣的實(shí)施例可以有利地提供同步以允許兩者之間的連接的缺失和恢復(fù)。例如,假設(shè)用戶(hù)正在通過(guò)隧道并且沒(méi)有網(wǎng)絡(luò)102連接。在一個(gè)實(shí)施例中,當(dāng)系統(tǒng)100檢測(cè)到網(wǎng)絡(luò)102連接的缺乏并且分析本地在客戶(hù)設(shè)備106上的語(yǔ)音輸入(即查詢(xún)/請(qǐng)求)使用自動(dòng)語(yǔ)音識(shí)別引擎111的“精簡(jiǎn)”本地版本和自然語(yǔ)言理解引擎326執(zhí)行,但是當(dāng)網(wǎng)絡(luò)102連接可用時(shí),asr和自然語(yǔ)言理解(nlu)在引擎的服務(wù)器端版本上執(zhí)行,其提供更大語(yǔ)義,詞匯和處理能力。在一個(gè)實(shí)施例中,如果用戶(hù)的請(qǐng)求要求網(wǎng)絡(luò)102連接,系統(tǒng)可以口頭通知用戶(hù)其缺少網(wǎng)絡(luò)102連接,用戶(hù)的請(qǐng)求將被處理當(dāng)網(wǎng)絡(luò)102的連接重新建立時(shí)。
應(yīng)當(dāng)理解,圖1中所圖示的系統(tǒng)100代表根據(jù)一個(gè)實(shí)施例的用于語(yǔ)音和連接的示例系統(tǒng),并且預(yù)期了各種不同的系統(tǒng)環(huán)境和配置,并且在本公開(kāi)的范圍內(nèi)。例如,各種功能可以從服務(wù)器移動(dòng)到客戶(hù)端,反之亦然,并且一些實(shí)現(xiàn)可以包括附加的或更少的計(jì)算設(shè)備、服務(wù)器和/或網(wǎng)絡(luò),并且可以實(shí)現(xiàn)各種功能性客戶(hù)或服務(wù)器端。此外,系統(tǒng)100的各種實(shí)體可以集成到單個(gè)計(jì)算設(shè)備或系統(tǒng)中,或者在附加的計(jì)算設(shè)備或系統(tǒng)等之間被劃分。
圖2是根據(jù)一個(gè)實(shí)施例的示例計(jì)算設(shè)備200的框圖。計(jì)算設(shè)備200,如圖所示,可以包括處理器202,存儲(chǔ)器204,通信單元208和存儲(chǔ)設(shè)備241,其可以由通信總線(xiàn)206被通信地耦合。通過(guò)示例的方式在提供圖2中所描述的計(jì)算設(shè)備200,應(yīng)當(dāng)理解,不脫離本公開(kāi)的范圍的情況下,其可以采取其他形式并且包括附加的或更少的部件。例如,盡管未示出,計(jì)算設(shè)備200可以包括輸入和輸出設(shè)備(例如,顯示器,鍵盤(pán),鼠標(biāo),觸摸屏,揚(yáng)聲器等),各種操作系統(tǒng),傳感器,附加處理器和其他物理配置。附加地,應(yīng)當(dāng)理解,圖2中所描述和本文所描述的計(jì)算機(jī)架構(gòu)可以應(yīng)用于系統(tǒng)100中具有各種修改的多個(gè)實(shí)體其,包括,例如tts服務(wù)器116(例如通過(guò)包括tts引擎119并省略其他所圖示的引擎),asr服務(wù)器110(例如通過(guò)包括asr引擎111并省略其他所圖示的引擎),客戶(hù)設(shè)備106(例如,通過(guò)省略服務(wù)器端語(yǔ)音和連接引擎124)和語(yǔ)音和連接服務(wù)器122(例如,通過(guò)包括服務(wù)器端語(yǔ)音和連接引擎124并省略其他所圖示的引擎)。
處理器202包括算術(shù)邏輯單元、微處理器、通用目的控制器、現(xiàn)場(chǎng)可編程門(mén)陣列(fpga)、專(zhuān)用集成電路(asic)或一些其它處理器陣列,或其一些組合通過(guò)執(zhí)行各種輸入、邏輯和/或數(shù)學(xué)運(yùn)算以執(zhí)行軟件指令來(lái)提供本文所描述的特征和功能。處理器202可以通過(guò)執(zhí)行各種輸入/輸出、邏輯、和/或數(shù)學(xué)運(yùn)算執(zhí)行代碼、例程和軟件指令。處理器202具有各種計(jì)算架構(gòu)以用于處理數(shù)據(jù)信號(hào),包括,例如,復(fù)雜指令集計(jì)算機(jī)(cisc)架構(gòu)、簡(jiǎn)化指令集計(jì)算機(jī)(risc)架構(gòu)、和/或?qū)崿F(xiàn)指令集的組合的架構(gòu)。處理器202可以是物理的和/或虛擬的,并且可以包括單個(gè)核心或多個(gè)處理單元和/或核心。在一些實(shí)現(xiàn)中,處理器202可以能夠產(chǎn)生并提供電子顯示信號(hào)到顯示設(shè)備(未示出),支持圖像的顯示,捕獲和發(fā)送圖像,執(zhí)行包括各種類(lèi)型的特征提取和采樣的復(fù)雜任務(wù)等。在一些實(shí)現(xiàn)中,處理器202可以經(jīng)由總線(xiàn)206耦合到存儲(chǔ)器204,以從其訪(fǎng)問(wèn)數(shù)據(jù)和指令,并在其中存儲(chǔ)數(shù)據(jù)??偩€(xiàn)206可以將處理器202耦合到應(yīng)用服務(wù)器122的其他部件,包括,例如,存儲(chǔ)器204、通信單元208和存儲(chǔ)設(shè)備241。
存儲(chǔ)器204可以存儲(chǔ)和提供對(duì)計(jì)算設(shè)備200的其他部件的數(shù)據(jù)的訪(fǎng)問(wèn)。在一些實(shí)現(xiàn)中,存儲(chǔ)器204可以存儲(chǔ)可以由處理器202執(zhí)行的指令和/或數(shù)據(jù)。例如,如所描述的,存儲(chǔ)器204可以存儲(chǔ)一個(gè)或多個(gè)引擎109、111、119、124。存儲(chǔ)器204還能夠存儲(chǔ)其他指令和數(shù)據(jù),包括,例如,操作系統(tǒng),硬件驅(qū)動(dòng)器,軟件應(yīng)用程序,數(shù)據(jù)庫(kù)等。存儲(chǔ)器204可以耦合到總線(xiàn)206,以與處理器202和計(jì)算設(shè)備200的其他部件進(jìn)行通信。
存儲(chǔ)器204包括非瞬態(tài)計(jì)算機(jī)可用(例如,可讀,可寫(xiě)等)介質(zhì),其可以是包含、存儲(chǔ)、通信、傳播或傳送指令、數(shù)據(jù)、計(jì)算機(jī)程序、軟件、代碼、例程等的任何裝置或設(shè)備,用于被處理器202處理或與其連接。在一些實(shí)現(xiàn)中,存儲(chǔ)器204可以包括一個(gè)或多個(gè)易失性存儲(chǔ)器和非易失性存儲(chǔ)器。例如,存儲(chǔ)器204可以包括,但不限于,一個(gè)或多個(gè)動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dram)設(shè)備、靜態(tài)隨機(jī)存取存儲(chǔ)器(sram)設(shè)備、分立存儲(chǔ)設(shè)備(例如,prom,fprom,rom)、硬盤(pán)驅(qū)動(dòng)器、光盤(pán)驅(qū)動(dòng)器(cd、dvd、blue-raytm等)。應(yīng)當(dāng)理解,存儲(chǔ)器204可以是單個(gè)設(shè)備,或者可以包括多種類(lèi)型的設(shè)備和配置。
總線(xiàn)206可以包括用于在計(jì)算設(shè)備的組件之間或在計(jì)算設(shè)備106/110/116/122之間傳送數(shù)據(jù)的通信總線(xiàn),網(wǎng)絡(luò)總線(xiàn)系統(tǒng)包括網(wǎng)絡(luò)102或其部分、處理器網(wǎng)格,其組合等。在一些實(shí)現(xiàn)中,引擎109、111、119、124、它們的子組件和在計(jì)算設(shè)備200上操作的各種軟件(例如,操作系統(tǒng),設(shè)備驅(qū)動(dòng)程序等)可以經(jīng)由與總線(xiàn)206相關(guān)聯(lián)地實(shí)現(xiàn)的軟件通信機(jī)制協(xié)作和通信。軟件通信機(jī)制可以包括和/或促進(jìn),例如,進(jìn)程間通信、本地函數(shù)或程序調(diào)用,遠(yuǎn)程程序調(diào)用、對(duì)象代理(例如,corba)、在軟件模塊之間的直接套接字通信(例如,tcp/ip套接字)、udp廣播和接收、http連接等。此外,任何或所有通信可能是安全的(例如,ssl,https等)。
通信單元208可以包括用于與網(wǎng)絡(luò)102有線(xiàn)和/或無(wú)線(xiàn)連接的一個(gè)或多個(gè)接口設(shè)備(i/f)。例如,通信單元208可以包括,但不限于,cat類(lèi)型接口;用于發(fā)送和接收信號(hào)的無(wú)線(xiàn)收發(fā)器使用無(wú)線(xiàn)電收發(fā)器(4g,3g,2g等)以與移動(dòng)網(wǎng)絡(luò)103通信,和無(wú)線(xiàn)電收發(fā)器用于wi-fitm和緊密接近的(例如,藍(lán)牙,nfc等)連接等;usb接口;其各種組合等。在一些實(shí)現(xiàn)中,通信單元208可以將處理器202鏈接到網(wǎng)絡(luò)102,其可以反過(guò)來(lái)耦合到其他處理系統(tǒng)。通信單元208可以使用各種標(biāo)準(zhǔn)網(wǎng)絡(luò)通信協(xié)議(包括例如本文別處討論的那些)提供到網(wǎng)絡(luò)102和系統(tǒng)100的其他實(shí)體的其他連接,包括,例如,本文其他地方討論過(guò)的那些。
存儲(chǔ)設(shè)備241是用于存儲(chǔ)數(shù)據(jù)和提供對(duì)數(shù)據(jù)的訪(fǎng)問(wèn)的信息源。在一些實(shí)現(xiàn)中,存儲(chǔ)設(shè)備241可以經(jīng)由總線(xiàn)206耦合到計(jì)算設(shè)備的組件202、204和208,以接收和提供對(duì)數(shù)據(jù)的訪(fǎng)問(wèn)。存儲(chǔ)設(shè)備241存儲(chǔ)的數(shù)據(jù)可以基于計(jì)算裝置200和實(shí)施例而變化。例如,在一個(gè)實(shí)施例中,客戶(hù)設(shè)備106的存儲(chǔ)設(shè)備241可以存儲(chǔ)關(guān)于用戶(hù)當(dāng)前上下文和會(huì)話(huà)的信息,并且語(yǔ)音和連接服務(wù)器122的存儲(chǔ)設(shè)備241存儲(chǔ)中長(zhǎng)期上下文、用于機(jī)器學(xué)習(xí)的累積用戶(hù)數(shù)據(jù)等
存儲(chǔ)設(shè)備241可以包括在計(jì)算設(shè)備200和/或與計(jì)算設(shè)備200不同但耦合到計(jì)算設(shè)備200或由計(jì)算設(shè)備200可訪(fǎng)問(wèn)的存儲(chǔ)系統(tǒng)中。存儲(chǔ)設(shè)備241可以包括用于存儲(chǔ)數(shù)據(jù)的一個(gè)或多個(gè)非瞬態(tài)計(jì)算機(jī)可讀介質(zhì)。在一些實(shí)現(xiàn)中,存儲(chǔ)設(shè)備241可以與存儲(chǔ)器204合并或者可以與其不同。在一些實(shí)現(xiàn)中,存儲(chǔ)設(shè)備241可以包括可在應(yīng)用服務(wù)器122上操作的數(shù)據(jù)庫(kù)管理系統(tǒng)(dbms)。例如,dbms可以包括結(jié)構(gòu)化查詢(xún)語(yǔ)言(sql)dbms、nosqldmbs、其各種組合等。在一些實(shí)例中,dbms可以將數(shù)據(jù)存儲(chǔ)在包含行和列的多維表中,并使用編程操作來(lái)操作,即插入、查詢(xún)、更新和/或刪除數(shù)據(jù)行。
如上所述,計(jì)算設(shè)備200可以包括其他和/或更少的部件。其他部件的示例可以包括顯示器、輸入設(shè)備、傳感器等(未示出)。在一個(gè)實(shí)施例中,計(jì)算設(shè)備包括顯示器。顯示器可以包括任何常規(guī)的顯示設(shè)備、監(jiān)視器或屏幕,包括,例如,有機(jī)發(fā)光二極管(oled)顯示器、液晶顯示器(lcd)等。在一些實(shí)現(xiàn)中,顯示器可以是能夠從觸控筆、用戶(hù)112的一個(gè)或多個(gè)手指等接收輸入的觸控式顯示器。例如,顯示器可以是能夠檢測(cè)和解釋與顯示表面接觸的的多個(gè)點(diǎn)的電容式觸摸屏顯示器。
輸入設(shè)備(未示出)可以包括用于將信息輸入應(yīng)用服務(wù)器122的任何設(shè)備。在一些實(shí)現(xiàn)中,輸入設(shè)備可以包括一個(gè)或多個(gè)外圍設(shè)備。例如,輸入設(shè)備可以包括鍵盤(pán)(例如,qwerty鍵盤(pán)或任何其他語(yǔ)言的鍵盤(pán))、指點(diǎn)設(shè)備(例如,鼠標(biāo)或觸摸板)、麥克風(fēng)、圖像/視頻捕捉設(shè)備(例如,相機(jī))等。在一個(gè)實(shí)施例中,計(jì)算設(shè)備200可以表示客戶(hù)設(shè)備106,并且客戶(hù)設(shè)備106包括用于接收語(yǔ)音輸入的麥克風(fēng)和用于促進(jìn)文本到語(yǔ)音(tts)的揚(yáng)聲器。在一些實(shí)現(xiàn)中,輸入設(shè)備可以包括能夠從用戶(hù)112的一個(gè)或多個(gè)手指接收輸入的觸摸屏顯示器。例如,用戶(hù)112可以通過(guò)使用手指與顯示在觸摸屏顯示器上的模擬(即虛擬或軟)鍵盤(pán)交互,來(lái)觸摸鍵盤(pán)區(qū)域中的顯示器。
示例客戶(hù)端語(yǔ)音和連接引擎109
現(xiàn)在參考圖3,根據(jù)一個(gè)實(shí)施例圖示了示例客戶(hù)端語(yǔ)音和連接引擎109的框圖。在所圖示的實(shí)施例中,客戶(hù)端語(yǔ)音和連接引擎109包括自動(dòng)語(yǔ)音識(shí)別(asr)交互引擎322、客戶(hù)端上下文持有者324、自然語(yǔ)言理解(nlu)引擎326、工作繞行引擎328和連接引擎330。
自動(dòng)語(yǔ)音識(shí)別(asr)交互引擎322包括用于與自動(dòng)語(yǔ)音識(shí)別(asr)引擎111交互的代碼和例程。在一個(gè)實(shí)施例中,asr交互引擎322是可由處理器202執(zhí)行的指令的集合。在另一個(gè)實(shí)施例中,asr交互引擎322存儲(chǔ)在存儲(chǔ)器204中,并且可被處理器202訪(fǎng)問(wèn)和執(zhí)行。在任一實(shí)施例中,asr交互引擎322適于與處理器202、asr引擎111、和系統(tǒng)100的其他組件合作和通信。
asr交互引擎322與asr引擎111交互。在一個(gè)實(shí)施例中,asr引擎111是客戶(hù)設(shè)備106的本地。例如,asr交互引擎322與asr引擎111進(jìn)行交互,asr引擎111是板載asr應(yīng)用(如asr引擎111a)。在一個(gè)實(shí)施例中,asr引擎111遠(yuǎn)離客戶(hù)設(shè)備106。例如,asr交互引擎322與asr引擎111進(jìn)行交互,asr引擎111是通過(guò)網(wǎng)絡(luò)102可訪(fǎng)問(wèn)和使用的非板載asr應(yīng)用(諸如asr引擎111x)。在一個(gè)實(shí)施例中,asr引擎111是包括本地于和遠(yuǎn)端于客戶(hù)設(shè)備106的部件的混合。例如,當(dāng)客戶(hù)設(shè)備106具有網(wǎng)絡(luò)102連接時(shí),asr交互引擎322與非板載asr引擎111x交互,以便減少客戶(hù)設(shè)備106的處理負(fù)擔(dān)并提高其電池壽命,并且當(dāng)網(wǎng)絡(luò)102連接不可用或不足時(shí),與板載asr引擎111a交互。
在一個(gè)實(shí)施例中,asr交互引擎322通過(guò)啟動(dòng)asr引擎111的語(yǔ)音輸入來(lái)與asr引擎111交互。在一個(gè)實(shí)施例中,asr交互引擎322可以響應(yīng)于檢測(cè)一個(gè)或多個(gè)事件而啟動(dòng)asr引擎111的語(yǔ)音輸入。在一些實(shí)施例中,asr交互引擎322主動(dòng)地啟動(dòng)asr,而不等待用戶(hù)112開(kāi)始對(duì)話(huà)。事件的示例包括,但不限于,喚醒詞或短語(yǔ),定時(shí)器的到期,用戶(hù)輸入,內(nèi)部事件,外部事件等。
在一個(gè)實(shí)施例中,asr交互引擎322響應(yīng)于檢測(cè)到喚醒字或短語(yǔ)啟動(dòng)asr引擎111的語(yǔ)音輸入。例如,假設(shè)語(yǔ)音和連接平臺(tái)與角色相關(guān)聯(lián)以與用戶(hù)交互,并且角色被命名為“sam”;在一個(gè)實(shí)施例中,asr交互引擎322檢測(cè)何時(shí)通過(guò)客戶(hù)設(shè)備的麥克風(fēng)接收到“sam”并啟動(dòng)asr引擎111的語(yǔ)音輸入。在另一個(gè)示例中,假設(shè)短語(yǔ)“嘿你!”被分配為喚醒短語(yǔ);在一個(gè)實(shí)施例中,asr交互引擎322檢測(cè)何時(shí)通過(guò)客戶(hù)設(shè)備的麥克風(fēng)接收短語(yǔ)“嘿你!”,并啟動(dòng)asr引擎111的語(yǔ)音輸入。
在一個(gè)實(shí)施例中,asr交互引擎322響應(yīng)于檢測(cè)定時(shí)器的到期而啟動(dòng)asr引擎111的語(yǔ)音輸入。例如,系統(tǒng)100可以確定用戶(hù)在上午7點(diǎn)醒來(lái)并在下午6點(diǎn)離開(kāi)工作;在一個(gè)實(shí)施例中,設(shè)置針對(duì)7am的定時(shí)器和針對(duì)6pm的定時(shí)器,并且asr交互引擎322在那些時(shí)間啟動(dòng)asr引擎111的語(yǔ)音輸入。例如,所以用戶(hù)當(dāng)上午7點(diǎn)醒來(lái)時(shí)可以要求新聞或天氣,并可以在下午6點(diǎn)離開(kāi)工作時(shí)請(qǐng)求交通報(bào)告或者啟動(dòng)對(duì)他/她的配偶的呼叫。
在一個(gè)實(shí)施例中,asr交互引擎322響應(yīng)于檢測(cè)到用戶(hù)輸入啟動(dòng)asr引擎111的語(yǔ)音輸入。例如,asr交互引擎322響應(yīng)于檢測(cè)手勢(shì)(例如,觸摸屏上的特定滑動(dòng)或運(yùn)動(dòng))或按鈕(物理的或軟/虛擬的)選擇(例如選擇專(zhuān)用按鈕或長(zhǎng)按多用途按鈕)啟動(dòng)asr引擎111的語(yǔ)音輸入。應(yīng)當(dāng)認(rèn)識(shí)到,所引用的按鈕可以在客戶(hù)設(shè)備106或與客戶(hù)設(shè)備106相關(guān)聯(lián)的組件(例如,基座,托架,藍(lán)牙耳機(jī),智能手表等)上。
在一個(gè)實(shí)施例中,響應(yīng)于檢測(cè)到內(nèi)部事件,asr交互引擎322啟動(dòng)asr引擎111的語(yǔ)音輸入。在一個(gè)實(shí)施例中,內(nèi)部事件基于客戶(hù)設(shè)備106的傳感器(例如,gps、加速度計(jì)、功率傳感器、對(duì)接傳感器、藍(lán)牙天線(xiàn)等)。例如,asr交互引擎322響應(yīng)于檢測(cè)到用戶(hù)設(shè)備106位于用戶(hù)的汽車(chē)中(例如,檢測(cè)汽車(chē)的板載診斷,電源和連接到車(chē)內(nèi)托架/基座等)啟動(dòng)asr的語(yǔ)音輸入并啟動(dòng)asr引擎111的語(yǔ)音輸入(例如,接收用戶(hù)對(duì)導(dǎo)航方向或音樂(lè)播放的請(qǐng)求)。在一個(gè)實(shí)施例中,內(nèi)部事件基于客戶(hù)設(shè)備106的應(yīng)用(未示出)。例如,假設(shè)客戶(hù)設(shè)備106是具有日歷應(yīng)用的智能電話(huà),并且日歷應(yīng)用包括用戶(hù)在遠(yuǎn)端地點(diǎn)的約會(huì);在一個(gè)實(shí)施例中,asr響應(yīng)于檢測(cè)到約會(huì)(例如,接收用戶(hù)對(duì)該約定位置的導(dǎo)航的請(qǐng)求)而啟動(dòng)asr引擎的語(yǔ)音輸入。在一個(gè)實(shí)施例中,內(nèi)部事件基于本地文本到語(yǔ)音引擎119a的操作。例如,假設(shè)文本到語(yǔ)音引擎119操作以給用戶(hù)呈現(xiàn)上下文提示(例如,“你現(xiàn)在正在離開(kāi)工作,你想呼叫你的妻子并導(dǎo)航回家嗎?”)或其他提示;在一個(gè)實(shí)施例中,asr交互引擎322檢測(cè)文本到語(yǔ)音提示并啟動(dòng)asr引擎111的語(yǔ)音輸入以接收用戶(hù)對(duì)提示的響應(yīng)。
在一個(gè)實(shí)施例中,響應(yīng)于檢測(cè)到外部事件(例如來(lái)自第三方api或數(shù)據(jù)庫(kù)),asr交互引擎322啟動(dòng)asr引擎111的語(yǔ)音輸入。在一個(gè)實(shí)施例中,內(nèi)部事件基于遠(yuǎn)程文本到語(yǔ)音引擎119x的操作。例如,假設(shè)文本到語(yǔ)音引擎119操作以給用戶(hù)呈現(xiàn)上下文提示(例如,“你現(xiàn)在正在離開(kāi)工作,你想呼叫你的妻子并導(dǎo)航回家?”或者“你正在接近你的目的地你要我導(dǎo)航到可用的停車(chē)場(chǎng)嗎?”)或其他提示;在一個(gè)實(shí)施例中,asr交互引擎322檢測(cè)文本到語(yǔ)音提示并啟動(dòng)asr引擎111的語(yǔ)音輸入以接收用戶(hù)對(duì)提示的響應(yīng)。
在一個(gè)實(shí)施例中,asr交互引擎322是不可知的。例如,在一個(gè)實(shí)施例中,asr交互引擎322可以使用一個(gè)或多個(gè)不同的asr引擎111。asr引擎111的示例包括但不限于nuance、googlevoice、telisma/onmobile、creawave、acapella等。不可知asr交互引擎322可有利地允許在使用的asr引擎111中的靈活性和asr引擎111的語(yǔ)言,并且可以允許所使用的asr引擎111通過(guò)語(yǔ)音和連接系統(tǒng)100的生命周期被改變,如新的asr引擎111變得可用并且現(xiàn)有的asr引擎被停止。在一些實(shí)施例中,系統(tǒng)100包括多個(gè)asr引擎,并且所使用的asr引擎111取決于上下文。例如,假設(shè)googlevoice比nuance更好地識(shí)別專(zhuān)有名稱(chēng);在一個(gè)實(shí)施例中,當(dāng)確定用戶(hù)已經(jīng)訪(fǎng)問(wèn)了電話(huà)應(yīng)用的聯(lián)系人列表時(shí),asr交互引擎322可以與google語(yǔ)音asr交互。在一些實(shí)施例中,系統(tǒng)100可以在任何時(shí)間在asr引擎之間切換(例如,使用第一asr引擎111處理語(yǔ)音輸入的第一部分,并且利用第二asr111處理語(yǔ)音輸入的第二部分)。類(lèi)似于asr引擎111,在一個(gè)實(shí)施例中,系統(tǒng)100關(guān)于所使用的tts引擎119是不可知的。也類(lèi)似于asr引擎111,在一些實(shí)施例中,系統(tǒng)100可以包括多個(gè)tts引擎119,并且針對(duì)不同的上下文可以選擇和使用不同的tts引擎和/或可以在任何時(shí)間在不同的tts引擎之間切換。例如,在一個(gè)實(shí)施例中,系統(tǒng)100可以開(kāi)始閱讀英文標(biāo)題,并且用戶(hù)可以請(qǐng)求法語(yǔ),并且系統(tǒng)將轉(zhuǎn)換到英語(yǔ)到法語(yǔ)的tts引擎。
asr引擎111接收asr交互引擎322啟動(dòng)語(yǔ)音輸入之后的語(yǔ)音輸入。在一個(gè)實(shí)施例中,響應(yīng)于啟動(dòng),asr引擎111接收語(yǔ)音輸入而沒(méi)有asr交互引擎322的額外參與。在一個(gè)實(shí)施例中,在啟動(dòng)語(yǔ)音輸入之后,asr交互引擎322將語(yǔ)音輸入傳遞到asr引擎111。例如,asr交互引擎322通信地耦合到asr引擎111以將語(yǔ)音輸入發(fā)送到asr引擎111。在另一個(gè)實(shí)施例中,在啟動(dòng)語(yǔ)音輸入之后,asr交互引擎322將語(yǔ)音輸入存儲(chǔ)在存儲(chǔ)設(shè)備(或任何其他可通信地訪(fǎng)問(wèn)的非瞬態(tài)存儲(chǔ)介質(zhì)),并且語(yǔ)音輸入可以由asr引擎111通過(guò)訪(fǎng)問(wèn)存儲(chǔ)設(shè)備(或其他非瞬態(tài)存儲(chǔ)介質(zhì))來(lái)檢索。
在一些實(shí)施例中,系統(tǒng)100主動(dòng)地提供電子語(yǔ)音助理而不接收諸如語(yǔ)音輸入的用戶(hù)輸入。例如,在一個(gè)實(shí)施例中,系統(tǒng)100可以確定汽車(chē)(即,客戶(hù)設(shè)備106處于交通堵塞狀態(tài)并自動(dòng)啟動(dòng)tts并且與用戶(hù)開(kāi)始對(duì)話(huà)(例如,“你要我提供替代路線(xiàn)嗎?”))或執(zhí)行動(dòng)作(例如,確定諸如停車(chē)和乘坐列車(chē)的替代路線(xiàn),并相應(yīng)地更新導(dǎo)航路線(xiàn))。
客戶(hù)端上下文持有者324包括用于上下文同步的代碼和例程。在一個(gè)實(shí)施例中,上下文同步包括從客戶(hù)端管理上下文工作流的定義、使用和存儲(chǔ),并與服務(wù)器端共享上下文工作流。在一個(gè)實(shí)施例中,客戶(hù)端上下文持有者324是可由處理器202執(zhí)行的指令集合。在另一個(gè)實(shí)施例中,客戶(hù)端上下文持有者324存儲(chǔ)在存儲(chǔ)器204中,并且可由處理器202訪(fǎng)問(wèn)和執(zhí)行。在任一實(shí)施例中,客戶(hù)端上下文持有者324適于與處理器202、客戶(hù)設(shè)備106的其他部件和系統(tǒng)100的其他部件協(xié)作和通信。
客戶(hù)端上下文持有者324管理來(lái)自客戶(hù)端的上下文工作流的定義、使用和存儲(chǔ),并與服務(wù)器端共享上下文工作流。在一個(gè)實(shí)施例中,客戶(hù)端上下文持有者324使用上下文同步協(xié)議與上下文代理420(服務(wù)器端上下文持有者)通信,以便同步系統(tǒng)100內(nèi)的上下文,盡管網(wǎng)絡(luò)102(其在某些網(wǎng)絡(luò)上可以是特別有益的,例如,移動(dòng)數(shù)據(jù)網(wǎng)絡(luò))上具有線(xiàn)程和低容量。
客戶(hù)端上下文持有者324管理上下文的定義、使用和存儲(chǔ)。上下文是由語(yǔ)音和連接引擎提供的個(gè)人助理的當(dāng)前狀態(tài)。在一個(gè)實(shí)施例中,上下文包括一個(gè)或多個(gè)參數(shù)。參數(shù)的示例包括但不限于上下文歷史、對(duì)話(huà)歷史(例如,用戶(hù)先前的請(qǐng)求和系統(tǒng)先前的響應(yīng)和動(dòng)作)、用戶(hù)簡(jiǎn)檔(例如用戶(hù)的標(biāo)識(shí)和偏好)、用戶(hù)歷史(例如用戶(hù)的習(xí)慣)、位置(客戶(hù)設(shè)備的106物理位置)、當(dāng)前上下文域(例如,客戶(hù)設(shè)備106、正被使用的應(yīng)用、當(dāng)前呈現(xiàn)給用戶(hù)的接口)。在一些實(shí)施例中,參數(shù)可以是變量或序列化對(duì)象。
在一個(gè)實(shí)施例中,上下文是多維上下文,并且可以描述任何維度的變量或特征。在一些實(shí)施例中,上下文使用多維矩陣。如本文所述,在一些實(shí)施例中,上下文在客戶(hù)(例如,客戶(hù)設(shè)備106a)和服務(wù)器(例如,語(yǔ)音和連接服務(wù)器122)之間實(shí)時(shí)同步。由于平臺(tái)(客戶(hù)端和服務(wù)器)的兩個(gè)部分的同步的深度集成與上下文描述任何維度變量或特征的能力的組合,所以上下文可能偶爾被稱(chēng)為“深度上下文”。
根據(jù)實(shí)施例,系統(tǒng)100使用上下文來(lái)提供一個(gè)或多個(gè)益處,包括但不限于,增加系統(tǒng)100的能力以精確地識(shí)別來(lái)自語(yǔ)音的單詞,確定用戶(hù)的預(yù)期請(qǐng)求并促進(jìn)用戶(hù)112和系統(tǒng)100之間更自然的對(duì)話(huà)。
在一個(gè)實(shí)施例中,上下文用于更精確地識(shí)別來(lái)自語(yǔ)音的單詞。例如,假設(shè)用戶(hù)已打開(kāi)電話(huà)應(yīng)用程序;在一個(gè)實(shí)施例中,可以使用(例如,在預(yù)處理期間由nlu引擎326)上下文來(lái)限制自然語(yǔ)言理解引擎326使用的字典(例如,與操作電話(huà)或進(jìn)行呼叫相關(guān)聯(lián)的聯(lián)系人和詞的名稱(chēng))。在一個(gè)實(shí)施例中,這種字典限制可以有益地消除汽車(chē)公司“renault”,但是留下“renaud”的名字,使得nlu引擎326可以準(zhǔn)確地確定用戶(hù)想要呼叫renaud而不是renault。nlu引擎326甚至可以基于用戶(hù)進(jìn)行的先前的電話(huà)呼叫來(lái)確定用戶(hù)打算呼叫哪個(gè)renaud(假設(shè)多個(gè)聯(lián)系人名為renaud)。因此,前面的示例還示出一個(gè)實(shí)施例其中使用上下文更準(zhǔn)確地確定用戶(hù)的預(yù)期請(qǐng)求(例如,呼叫renaud)。因此,上下文還可以最小化從接收用戶(hù)的請(qǐng)求到準(zhǔn)確地執(zhí)行請(qǐng)求的時(shí)間量。
在一個(gè)實(shí)施例中,上下文用于促進(jìn)用戶(hù)和系統(tǒng)100之間的更自然的對(duì)話(huà)(雙向通信)。例如,可以使用上下文來(lái)促進(jìn)用戶(hù)請(qǐng)求關(guān)于yahoo!的新聞的對(duì)話(huà);系統(tǒng)開(kāi)始閱讀有關(guān)yahoo!的文章的標(biāo)題。用戶(hù)問(wèn)“誰(shuí)是ceo?”,系統(tǒng)100理解用戶(hù)的預(yù)期請(qǐng)求是針對(duì)yahoo!的首席執(zhí)行官,并搜索并提供該名稱(chēng)。然后用戶(hù)要求今天的天氣;系統(tǒng)100理解該請(qǐng)求與天氣應(yīng)用程序相關(guān)聯(lián),并且用戶(hù)的預(yù)期請(qǐng)求是用戶(hù)的物理位置的天氣,確定應(yīng)該使用天氣應(yīng)用程序并且對(duì)天氣應(yīng)用進(jìn)行api調(diào)用以獲得天氣。用戶(hù)然后說(shuō)“以及明天”;系統(tǒng)100理解用戶(hù)的預(yù)期請(qǐng)求是針對(duì)明天用戶(hù)現(xiàn)在位置的天氣。然后用戶(hù)詢(xún)問(wèn)“股票交易在什么?”;系統(tǒng)100理解用戶(hù)的預(yù)期請(qǐng)求是針對(duì)yahoo!股票的當(dāng)前交易價(jià)格,并執(zhí)行網(wǎng)絡(luò)搜索以獲得該信息。為了總結(jié)和簡(jiǎn)化,在一些實(shí)施例中,上下文可以跟蹤主題,在應(yīng)用之間切換并跟蹤各種應(yīng)用的工作流程中的狀態(tài),以通過(guò)支持這樣的上下文跳躍來(lái)使得用戶(hù)112和系統(tǒng)100之間能夠更“自然”對(duì)話(huà)。
在一些實(shí)施例中,機(jī)器學(xué)習(xí)應(yīng)用于上下文。例如,為了學(xué)習(xí)下一步驟或命令的概率,基于從許多用戶(hù)積累的數(shù)據(jù),以及用戶(hù)一般如何與系統(tǒng)100交互,或者對(duì)于特定用戶(hù),基于該用戶(hù)的數(shù)據(jù)以及該用戶(hù)與系統(tǒng)100的如何交互。
在一個(gè)實(shí)施例中,客戶(hù)端上下文持有者324將用戶(hù)的當(dāng)前上下文與圖4的上下文代理420同步。將上下文與服務(wù)器端語(yǔ)音和連接引擎124同步允許客戶(hù)端語(yǔ)音和連接引擎109可選地使服務(wù)器端引擎124來(lái)管理對(duì)話(huà)并執(zhí)行各種操作或者基于例如與服務(wù)器122的連接在客戶(hù)設(shè)備106處執(zhí)行功能。
在一個(gè)實(shí)施例中,客戶(hù)端持有者324和上下文代理420(即,服務(wù)器端持有者)使用提供通信協(xié)議的上下文同步協(xié)議進(jìn)行通信,并且驗(yàn)證正在被同步的上下文信息被傳遞。在一個(gè)實(shí)施例中,上下文同步協(xié)議標(biāo)準(zhǔn)化當(dāng)前上下文的狀態(tài)或子狀態(tài)的每個(gè)屬性(例如變量或參數(shù))的密鑰訪(fǎng)問(wèn)(例如,上下文id)。
現(xiàn)在參考圖8,根據(jù)一個(gè)實(shí)施例示出了提供關(guān)于客戶(hù)端和服務(wù)器端之間的上下文同步的進(jìn)一步細(xì)節(jié)的示意圖800。在所圖示的實(shí)施例中,客戶(hù)設(shè)備的客戶(hù)端上下文持有者324維護(hù)客戶(hù)設(shè)備106的一個(gè)或多個(gè)上下文810a/812a/814a。在一個(gè)實(shí)施例中,每個(gè)上下文810a/812a/814a與模塊相關(guān)聯(lián)。在一個(gè)實(shí)施例中,客戶(hù)端上下文持有者324維護(hù)上下文,其包括通過(guò)應(yīng)用的功能和每個(gè)屏幕上可用的功能來(lái)包括的用戶(hù)流程的屏幕(屏幕1到n)。例如,在所圖示的實(shí)施例中,向用戶(hù)呈現(xiàn)了屏幕1820a,其提供功能的集合,并且用戶(hù)選擇了功能(從屏幕1的f1-fn)。然后顯示用戶(hù)屏幕2,用戶(hù)選擇了一個(gè)功能(從屏幕2的f1-fn)。然后顯示用戶(hù)屏幕3,用戶(hù)選擇了一個(gè)功能(從屏幕3的f1-fn)等等。例如,在一個(gè)實(shí)施例中,假設(shè)模塊1810a是用于電話(huà)應(yīng)用的模塊,模塊2812a是用于媒體應(yīng)用的模塊;在一個(gè)實(shí)施例中,模塊1810a的屏幕820a,822a,824a和826a可以表示用戶(hù)與系統(tǒng)的對(duì)話(huà),以導(dǎo)航工作繞行(下面討論),以便選擇聯(lián)系人并打電話(huà),并且模塊2812a的屏幕可以表示導(dǎo)航要播放的流派、藝術(shù)家、專(zhuān)輯和曲目的用戶(hù)的流程。
主屏幕830a重置各個(gè)模塊810a,812a,814a的上下文。例如,假設(shè)模塊1810與新聞應(yīng)用相關(guān)聯(lián);在一個(gè)實(shí)施例中,用戶(hù)被定向到主屏幕830a(例如,通過(guò)諸如超時(shí)時(shí)段的機(jī)制自動(dòng)地或基于用戶(hù)的請(qǐng)求)。在一個(gè)實(shí)施例中,當(dāng)用戶(hù)被定向到主屏幕830a時(shí),觸發(fā)模塊810a,812a,814a中的一個(gè)或多個(gè)中的上下文信息的重置。
在一個(gè)實(shí)施例中,上下文同步協(xié)議804,其也在下文參照?qǐng)D4被描述,提供協(xié)議用于將上下文從客戶(hù)端上下文持有者324傳送到也被稱(chēng)為服務(wù)器端上下文持有者或類(lèi)似上下文代理422。在一些實(shí)施例中,上下文同步協(xié)議提供高度的壓縮。在一些實(shí)施例中,上下文同步協(xié)議提供用于驗(yàn)證上下文成功在客戶(hù)和服務(wù)器端之間同步的機(jī)制,使得上下文代理422的信息806與客戶(hù)端上下文持有者324的802相同。
在一個(gè)實(shí)施例中,上下文引擎424從上下文代理422收集上下文。在一個(gè)實(shí)施例中,上下文引擎424為用戶(hù)管理上下文信息808。例如,上下文代理424維護(hù)針對(duì)應(yīng)用隨時(shí)間的上下文信息(例如長(zhǎng)期和中期上下文)以及應(yīng)用中針對(duì)每個(gè)用戶(hù)會(huì)話(huà)的各種上下文信息。這樣的信息對(duì)于機(jī)器學(xué)習(xí)可能是有用的(例如,基于當(dāng)前上下文(諸如所請(qǐng)求的呼叫victoria)和過(guò)去的上下文(諸如針對(duì)victoria最后一個(gè)請(qǐng)求是針對(duì)victoriap.)來(lái)預(yù)測(cè)用戶(hù)的意圖)。
在一個(gè)實(shí)施例中,客戶(hù)端上下文持有者324將上下文傳遞到系統(tǒng)100的一個(gè)或多個(gè)部件,包括例如自然語(yǔ)言理解(nlu)引擎326和/或上下文代理422。在一個(gè)實(shí)施例中,客戶(hù)端上下文持有者324將上下文存儲(chǔ)在存儲(chǔ)設(shè)備241(或任何其他可通信訪(fǎng)問(wèn)的非瞬態(tài)存儲(chǔ)介質(zhì))中。系統(tǒng)100的其他組件包括,例如自然語(yǔ)言理解引擎326和/或上下文代理422,可以通過(guò)訪(fǎng)問(wèn)存儲(chǔ)設(shè)備241(或其他非瞬態(tài)存儲(chǔ)介質(zhì))來(lái)檢索上下文。
自然語(yǔ)言理解(nlu)引擎326包括用于接收asr引擎111的輸出以及基于asr引擎111的輸出來(lái)確定用戶(hù)的預(yù)期請(qǐng)求的代碼和例程。在一個(gè)實(shí)施例中,nlu引擎326是可由處理器202執(zhí)行的指令集合。在另一個(gè)實(shí)施例中,nlu引擎326存儲(chǔ)在存儲(chǔ)器204中,并且可由處理器202訪(fǎng)問(wèn)和執(zhí)行。在任一實(shí)施例中,nlu引擎326適于與處理器202、asr引擎111和系統(tǒng)100的其他部件合作和通信。
在一個(gè)實(shí)施例中,nlu引擎326預(yù)處理asr引擎111輸出以校正語(yǔ)音識(shí)別中的錯(cuò)誤。為了清楚和方便,asr引擎111的輸出有時(shí)被稱(chēng)為“經(jīng)識(shí)別的語(yǔ)音”。在一個(gè)實(shí)施例中,nlu引擎326預(yù)處理經(jīng)識(shí)別的語(yǔ)音以校正所識(shí)別的語(yǔ)音中的任何錯(cuò)誤。在一個(gè)實(shí)施例中,nlu引擎326從asr引擎111接收經(jīng)識(shí)別的語(yǔ)音以及可選的相關(guān)聯(lián)的置信置信度,并從客戶(hù)端上下文持有者324接收上下文,并且校正經(jīng)識(shí)別的語(yǔ)音中的任何錯(cuò)誤識(shí)別的術(shù)語(yǔ)。例如,假設(shè)用戶(hù)說(shuō)法語(yǔ),語(yǔ)音輸入是“donne-moil'informationtechnologique”(即“給我信息技術(shù)”);然而,asr引擎111輸出“benoitlaformationtechnologique”(即“benoit技術(shù)訓(xùn)練”)作為識(shí)別的語(yǔ)音。在一個(gè)實(shí)施例中,nlu引擎326基于上下文執(zhí)行預(yù)處理以將“benoit”校正為“donne-moi”和將“formation”校正為“information”,從而提高nlu引擎326隨后確定的用戶(hù)意圖的準(zhǔn)確性。
nlu引擎326基于來(lái)自asr引擎111的經(jīng)識(shí)別的語(yǔ)音確定用戶(hù)的意圖,其可以在一些實(shí)施例中可選地被預(yù)處理。在一個(gè)實(shí)施例中,nlu引擎326將用戶(hù)的意圖確定為元組。在一個(gè)實(shí)施例中,元組包括動(dòng)作(例如,要執(zhí)行的功能)和動(dòng)作者(例如執(zhí)行該功能的模塊)。然而,在一些實(shí)施例中,元組可以包括附加的或不同的信息。例如,假設(shè)nlu引擎326在一個(gè)實(shí)施例中接收經(jīng)識(shí)別的語(yǔ)音“呼叫g(shù)reg”,則nlu引擎326確定元組包括動(dòng)作(即打電話(huà)),動(dòng)作者(即電話(huà)模塊)和實(shí)體,也有時(shí)被稱(chēng)為“項(xiàng)目”(即greg作為接受者/呼叫目標(biāo))。
在一個(gè)實(shí)施例中,nlu引擎326檢測(cè)關(guān)鍵字或快捷方式中的一個(gè)或多個(gè)。關(guān)鍵字是給出直接訪(fǎng)問(wèn)模塊的單詞。例如,當(dāng)用戶(hù)說(shuō)“電話(huà)”時(shí),電話(huà)模塊被訪(fǎng)問(wèn)并且電話(huà)應(yīng)用被啟動(dòng)(或被帶到前臺(tái))??旖莘绞绞嵌陶Z(yǔ)(例如發(fā)送消息)。關(guān)鍵字和快捷方式的示例可以在圖7的表710中找到。在一些實(shí)施例中,系統(tǒng)100基于機(jī)器學(xué)習(xí)創(chuàng)建一個(gè)或多個(gè)快捷方式,其可以被稱(chēng)為意圖學(xué)習(xí)。例如,在一個(gè)實(shí)施例中,系統(tǒng)100學(xué)習(xí)到,“發(fā)送louis消息”應(yīng)當(dāng)被nlu引擎326解釋為用戶(hù)112請(qǐng)求以命令和發(fā)送電子郵件(而不是例如sms文本消息)以聯(lián)系louismonier,并直接進(jìn)入界面以接收命令電子郵件的聲音輸入,并將“發(fā)送louis信息”建為快捷方式。
在一個(gè)實(shí)施例中,nlu引擎326的自然語(yǔ)言理解功能是模塊化的,并且系統(tǒng)100對(duì)于執(zhí)行自然語(yǔ)言理解的模塊是不可知的。在一些實(shí)施例中,模塊化允許nlu引擎326的nlu模塊頻繁地被更新以連續(xù)地提高準(zhǔn)確的理解,或替換自然語(yǔ)言理解模塊,當(dāng)新的更準(zhǔn)確的自然語(yǔ)言理解系統(tǒng)變得可用時(shí)。
當(dāng)nlu引擎326不能確定用戶(hù)的預(yù)期請(qǐng)求(例如,請(qǐng)求是模糊的,沒(méi)有意義,或者所請(qǐng)求的動(dòng)作和/或動(dòng)作不可用或不兼容,元組中缺少值等),nlu引擎326啟動(dòng)工作繞行。例如,當(dāng)用戶(hù)的請(qǐng)求是不完整的(例如,元組不完整)時(shí),nlu引擎326請(qǐng)求工作繞行引擎328(下面討論)提示用戶(hù)附加信息。例如,在一個(gè)實(shí)施例中當(dāng)用戶(hù)請(qǐng)求“什么在電視上?”時(shí),nlu引擎326確定一個(gè)頻道和一個(gè)時(shí)間是缺失的并且啟動(dòng)一個(gè)工作繞行。
在一個(gè)實(shí)施例中,nlu引擎326將元組傳遞到連接引擎330。例如,nlu引擎326通信地耦合到連接引擎330以將元組發(fā)送到連接引擎330。在另一實(shí)施例中,nlu引擎326將該元組存儲(chǔ)在存儲(chǔ)設(shè)備241(或任何其他非瞬態(tài)通信可訪(fǎng)問(wèn)的存儲(chǔ)介質(zhì))中,并且連接引擎330可以通過(guò)訪(fǎng)問(wèn)存儲(chǔ)設(shè)備241(或其他非瞬態(tài)存儲(chǔ)介質(zhì))來(lái)檢索。
在一個(gè)實(shí)施例中,nlu引擎326將針對(duì)附加信息的請(qǐng)求傳遞給工作繞行引擎328。例如,nlu引擎326通信地被耦合到工作繞行引擎328,以向工作繞行引擎328發(fā)送針對(duì)附加信息的請(qǐng)求。在另一個(gè)實(shí)施例中,nlu引擎326將針對(duì)附加信息的請(qǐng)求存儲(chǔ)在存儲(chǔ)設(shè)備241(或通信地可訪(fǎng)問(wèn)的任何其他非瞬態(tài)存儲(chǔ)介質(zhì))中,并且工作繞行引擎328通過(guò)訪(fǎng)問(wèn)存儲(chǔ)裝置241(或其他非暫時(shí)性存儲(chǔ)介質(zhì))來(lái)檢索針對(duì)附加信息的請(qǐng)求。
工作繞行引擎328包括用于生成針對(duì)來(lái)自用戶(hù)的附加信息的請(qǐng)求的代碼和例程,從而nlu引擎326能夠確定用戶(hù)的預(yù)期請(qǐng)求。在一個(gè)實(shí)施例中,工作繞行引擎328是可由處理器202執(zhí)行的指令集合。在另一個(gè)實(shí)施例中,工作繞行引擎328被存儲(chǔ)在存儲(chǔ)器204中,并且可由處理器202訪(fǎng)問(wèn)和執(zhí)行。在任一實(shí)施例中,工作繞行引擎328適用于與處理器202、服務(wù)器端連接引擎124的其他組件和系統(tǒng)100的其他組件的協(xié)作和通信。
工作繞行引擎328生成針對(duì)附加信息的請(qǐng)求,從而可以理解和執(zhí)行用戶(hù)的預(yù)期請(qǐng)求。在一個(gè)實(shí)施例中,工作繞行引擎328生成一個(gè)或多個(gè)針對(duì)附加信息請(qǐng)求,從而與用戶(hù)建立對(duì)話(huà)以獲得附加信息。例如,工作繞行引擎328的工作生成針對(duì)附加信息的請(qǐng)求,并且經(jīng)由客戶(hù)設(shè)備將該用于呈現(xiàn)的請(qǐng)求發(fā)送給用戶(hù)112(例如,將該請(qǐng)求發(fā)送到文本到語(yǔ)音引擎111,文本到語(yǔ)音引擎111將該請(qǐng)求呈現(xiàn)給用戶(hù)作為音頻輸出和/或顯示在客戶(hù)設(shè)備的顯示器上)。接收用戶(hù)的響應(yīng)(例如,作為由asr引擎111接收的音頻輸入或通過(guò)諸如鍵盤(pán)或觸摸屏的另一用戶(hù)輸入設(shè)備)。nlu引擎326確定用戶(hù)的預(yù)期請(qǐng)求。當(dāng)nlu引擎326仍然不能確定用戶(hù)的預(yù)期請(qǐng)求時(shí),工作繞行引擎328生成另一請(qǐng)求,并重復(fù)該過(guò)程。
針對(duì)附加信息的請(qǐng)求的類(lèi)型的示例可以包括,但不限于以下各項(xiàng)中的一個(gè)或多個(gè):針對(duì)所提出的信息是否正確的請(qǐng)求針對(duì)用戶(hù)對(duì)整個(gè)原始請(qǐng)求重復(fù)的請(qǐng)求、針對(duì)用戶(hù)澄清原始請(qǐng)求的一部分的請(qǐng)求、針對(duì)用戶(hù)從選項(xiàng)列表中進(jìn)行選擇的請(qǐng)求等。為了清楚和方便,在以下場(chǎng)景的上下文中討論工作繞行引擎328的操作可能是有益的。假設(shè)用戶(hù)請(qǐng)求“導(dǎo)航到1234fakestreet,anytown,california”。然而,由于任何原因(例如由于背景噪聲,用戶(hù)口音,語(yǔ)音識(shí)別中的錯(cuò)誤),nlu引擎326理解為“導(dǎo)航”和“california”,所以nlu引擎326不了解用戶(hù)的預(yù)期請(qǐng)求。
在一些實(shí)施例中,工作繞行引擎328產(chǎn)生關(guān)于所提供的信息是否正確的請(qǐng)求。在一些實(shí)施例中,系統(tǒng)100基于機(jī)器學(xué)習(xí)提出附加信息。例如,假設(shè)系統(tǒng)學(xué)習(xí)到每個(gè)星期三用戶(hù)驅(qū)車(chē)到1234fakestreet,anytown,ca;在一個(gè)實(shí)施例中,工作繞行引擎328提出了附加信息“你說(shuō)california。你想去1234fakest.,anytown嗎?”。在一個(gè)實(shí)施例中,如果用戶(hù)說(shuō)”是“,則該元組完成,并且執(zhí)行到完整地址的導(dǎo)航,并且如果用戶(hù)回答“否”,工作繞行引擎328產(chǎn)生另一請(qǐng)求(例如,請(qǐng)求用戶(hù)從選項(xiàng)列表中選擇或拼出目的地)。
在一些實(shí)施例中,工作繞行引擎328產(chǎn)生請(qǐng)求要用戶(hù)重復(fù)完整原始請(qǐng)求。例如,工作繞行引擎328生成請(qǐng)求“我很抱歉。我不明白。你可以重復(fù)嗎?”,并且經(jīng)由用戶(hù)設(shè)備106向用戶(hù)呈現(xiàn)(視覺(jué)上,聽(tīng)覺(jué)上或兩者)請(qǐng)求,并且用戶(hù)可以重復(fù)“導(dǎo)航到1234fakest.,anytown,california”。在一個(gè)實(shí)施例中,工作繞行引擎328不產(chǎn)生請(qǐng)求要用戶(hù)重復(fù)原始請(qǐng)求,并且使用其他類(lèi)型的請(qǐng)求之一。在一個(gè)實(shí)施例中,工作繞行引擎328基于預(yù)定閾值(例如,0或1)限制了它生成要用戶(hù)重復(fù)完整原始請(qǐng)求的請(qǐng)求的次數(shù)。在一個(gè)這樣的實(shí)施例中,響應(yīng)于滿(mǎn)足閾值,工作繞行引擎328使用針對(duì)附加信息的不同類(lèi)型的請(qǐng)求(例如提示用戶(hù)從選項(xiàng)列表中進(jìn)行選擇)。
在一些實(shí)施例中,工作繞行引擎328生成用戶(hù)部分地重復(fù)原始請(qǐng)求或者提供從原始請(qǐng)求缺失的信息的請(qǐng)求。例如,假設(shè)工作繞行引擎328確定“導(dǎo)航”和“california”被理解,并確定街道地址和城市缺失,并生成請(qǐng)求“我很抱歉。california的城市和街道地址是什么?”,以便用戶(hù)能提供缺失的信息(這是原始請(qǐng)求的一部分)。通過(guò)用戶(hù)設(shè)備106向用戶(hù)呈現(xiàn)(視覺(jué)上,聽(tīng)覺(jué)上或兩者)請(qǐng)求,并且用戶(hù)可以陳述“1234fakestreet,anytown”。在一個(gè)實(shí)施例中,工作繞行引擎328基于預(yù)定閾值(例如,0,1或2)限制它將產(chǎn)生要用戶(hù)重復(fù)原始請(qǐng)求的相同部分的請(qǐng)求的次數(shù)。在一個(gè)這樣的實(shí)施例中,響應(yīng)于滿(mǎn)足閾值,工作繞行引擎328使用針對(duì)附加信息的不同類(lèi)型的請(qǐng)求(例如提示用戶(hù)從選項(xiàng)列表中進(jìn)行選擇)。
在一些實(shí)施例中,工作繞行引擎328生成用戶(hù)從選項(xiàng)列表中進(jìn)行選擇的請(qǐng)求,偶爾被稱(chēng)為“默認(rèn)列表”。例如,假設(shè)工作繞行引擎328確定“導(dǎo)航”和“california”被理解并確定街道地址和城市缺失,并生成請(qǐng)求“你的目的地城市以什么字母開(kāi)始”,并生成一個(gè)選項(xiàng)列表,如“a-e為1,f-j為2,...等”。通過(guò)用戶(hù)設(shè)備106向用戶(hù)呈現(xiàn)(視覺(jué)上,聽(tīng)覺(jué)上或兩者)請(qǐng)求,并且用戶(hù)可以陳述或選擇“1”,或者可以通過(guò)陳述選項(xiàng)“a到e”的內(nèi)容進(jìn)行選擇。由于nlu引擎326仍然無(wú)法確定用戶(hù)的來(lái)自“導(dǎo)航”的預(yù)期請(qǐng)求,以及以“a”和“e”之間的字母開(kāi)頭的califonia城市,工作繞行引擎328生成另一個(gè)選項(xiàng)列表,例如“a為1,b為2,...等”。通過(guò)用戶(hù)設(shè)備106向用戶(hù)呈現(xiàn)(視覺(jué)上,聽(tīng)覺(jué)上或兩者)請(qǐng)求,并且用戶(hù)可以陳述或選擇“1”或者可以通過(guò)選項(xiàng)“a”的內(nèi)容進(jìn)行選擇。工作繞行引擎328可以繼續(xù)過(guò)濾選擇并生成具有過(guò)濾選項(xiàng)列表的請(qǐng)求,直到“anytown”被標(biāo)識(shí)為城市,“fakestreet”被標(biāo)識(shí)為街道,“1234”被標(biāo)識(shí)為街道號(hào)碼。
根據(jù)實(shí)施例,選項(xiàng)可以在客戶(hù)設(shè)備的顯示器上可視地列出,經(jīng)由客戶(hù)設(shè)備106使用文本到語(yǔ)音或兩者讀取到用戶(hù)112。在一個(gè)實(shí)施例中,列表選項(xiàng)一次以組(例如,以3-5為一組)呈現(xiàn)。例如,八個(gè)選項(xiàng)的列表可以在兩組中呈現(xiàn)作為四個(gè)選項(xiàng)的第一組,用戶(hù)可以通過(guò)陳述“下一個(gè)”來(lái)請(qǐng)求下一組,并且呈現(xiàn)第二組四個(gè)選項(xiàng)。限制一次呈現(xiàn)的選項(xiàng)的數(shù)量可能會(huì)降低用戶(hù)被淹沒(méi)的可能性,并可能提高可用性。為了導(dǎo)航分為多個(gè)組的選項(xiàng)列表,在一個(gè)實(shí)施例中,用戶(hù)可以使用諸如“開(kāi)始”的命令去到列表的第一組,“結(jié)束”去到列表的末尾,“下一個(gè)”去列表中的下一個(gè)組,“上一個(gè)”轉(zhuǎn)到列表中的上一個(gè)組或“到___”(例如“到字母v”)以通過(guò)字母導(dǎo)航或過(guò)濾。
在一些實(shí)施例中,由工作繞行引擎328請(qǐng)求產(chǎn)生的對(duì)話(huà)可以以任何順序在請(qǐng)求類(lèi)型之間轉(zhuǎn)換。例如,在一個(gè)實(shí)施例中,工作繞行引擎328在用戶(hù)選擇選項(xiàng)時(shí),工作繞行引擎可以提示用戶(hù)附加信息而沒(méi)有選項(xiàng)列表。例如,在使用如上所述的選項(xiàng)列表接收/確定“anytown”是城市時(shí),工作繞行引擎328生成請(qǐng)求“位于ca的anytown的街道的名稱(chēng)是什么”,用戶(hù)可以口頭回應(yīng)“fakestreet”。如果響應(yīng)“fakestreet”是不可理解的,在一個(gè)實(shí)施例中,工作繞行引擎328可以請(qǐng)求用戶(hù)重復(fù)或可以請(qǐng)求用戶(hù)從工作繞行引擎328產(chǎn)生的選項(xiàng)列表中進(jìn)行選擇。
在一些實(shí)施例中,生成由工作繞行引擎328產(chǎn)生的請(qǐng)求,以便最小化或消除用戶(hù)以負(fù)面(例如,說(shuō)“否”)的響應(yīng)的需要。例如,工作繞行引擎328生成城市第一個(gè)字母的選項(xiàng)列表,并請(qǐng)求用戶(hù)選擇適當(dāng)?shù)倪x項(xiàng),而不是沿著“california城市以字母a開(kāi)始”的方式發(fā)送請(qǐng)求。在上述示例的情況下這將是“是”,但是這樣的請(qǐng)求可能導(dǎo)致在其他實(shí)例中不產(chǎn)生結(jié)果。
應(yīng)當(dāng)認(rèn)識(shí)到,上述“導(dǎo)航到1234fakest....”用例的示例和許多其他用例存在。例如,假設(shè)用戶(hù)請(qǐng)求“呼叫g(shù)reg”,并且用戶(hù)在地址簿中具有名為greg的多個(gè)聯(lián)系人(例如,gregr.,gregs.,gregt.);在一個(gè)實(shí)施例中,工作繞行引擎328發(fā)送具有選項(xiàng)列表的請(qǐng)求“你想要呼叫哪個(gè)greg?gregr.是1。gregs.是2。gregt.是3?!?,并且用戶(hù)可以說(shuō)出與期望的greg相關(guān)聯(lián)的數(shù)字。
此外,盡管在上述示例中,原始請(qǐng)求的一部分可以由nlu引擎326理解動(dòng)作者(即,分別是導(dǎo)航應(yīng)用和電話(huà)應(yīng)用)和實(shí)體的一部分(即,分別為california和greg),但是當(dāng)原始請(qǐng)求以整體的形式不能被nlu引擎326理解時(shí)或者當(dāng)元組的其他部分缺失時(shí),工作繞行引擎328可以進(jìn)行操作。例如,工作繞行引擎328可以進(jìn)行一個(gè)或多個(gè)請(qǐng)求以獲得期望的動(dòng)作者(例如,用戶(hù)想要使用的應(yīng)用)、期望的動(dòng)作(例如應(yīng)用的功能或特征)、期望的實(shí)體(例如,動(dòng)作的目標(biāo)、動(dòng)作的收件人、動(dòng)作的輸入等)。在一個(gè)實(shí)施例中,工作繞行引擎328在nlu引擎326的請(qǐng)求下或者直到nlu引擎326具有表示用戶(hù)的預(yù)期請(qǐng)求的完整元組來(lái)產(chǎn)生請(qǐng)求。在另一個(gè)示例中,假設(shè)nlu引擎326理解該消息,但不理解動(dòng)作者(例如,采用位于統(tǒng)一消息客戶(hù)端-電子郵件、sms、facebook等中的哪個(gè)服務(wù))和實(shí)體(例如,接收者);在一個(gè)實(shí)施例中,工作繞行引擎328請(qǐng)求這個(gè)附加信息。
應(yīng)當(dāng)認(rèn)識(shí)到,上文參考工作繞行引擎328討論的特征和功能可以有益地提供自動(dòng)故障排除機(jī)制,通過(guò)該自動(dòng)故障排除機(jī)制可以確定和最終執(zhí)行用戶(hù)的預(yù)期請(qǐng)求,而無(wú)需用戶(hù)輸出請(qǐng)求的部分(例如,用戶(hù)可以通過(guò)觸摸屏或其他輸入來(lái)說(shuō)出和/或進(jìn)行簡(jiǎn)單的選擇),這在一些受限的操作環(huán)境(例如,在駕駛時(shí))可能是危險(xiǎn)的或非法的,并且從而增加用戶(hù)112和用戶(hù)112周?chē)哪切┑陌踩?。?yīng)該進(jìn)一步認(rèn)識(shí)到,上面參照工作繞行引擎328討論的特征和功能可以有利地導(dǎo)致更多的用戶(hù)滿(mǎn)意度,因?yàn)橄到y(tǒng)100不太可能“放棄”或?qū)⒂脩?hù)推送到默認(rèn),如網(wǎng)頁(yè)搜索。
在一個(gè)實(shí)施例中,工作繞行引擎328將針對(duì)附加信息的請(qǐng)求傳遞給文本到語(yǔ)音引擎119和圖形引擎中的一個(gè)或多個(gè),用于在客戶(hù)設(shè)備的顯示器(未示出)上顯示內(nèi)容。在另一個(gè)實(shí)施例中,工作繞行引擎328將針對(duì)附加信息的請(qǐng)求存儲(chǔ)在存儲(chǔ)設(shè)備241(或任何其他通信可訪(fǎng)問(wèn)的非瞬態(tài)存儲(chǔ)介質(zhì))中。包括例如文本到語(yǔ)音引擎119和/或圖形引擎(未示出)的系統(tǒng)100的其他部件可以通過(guò)訪(fǎng)問(wèn)存儲(chǔ)介質(zhì)241(或其他非暫時(shí)性存儲(chǔ)介質(zhì))檢索針對(duì)附加信息的請(qǐng)求,并經(jīng)由客戶(hù)設(shè)備106發(fā)送它以呈現(xiàn)給用戶(hù)112。
連接引擎330包括用于處理用戶(hù)預(yù)期請(qǐng)求的代碼和例程。在一個(gè)實(shí)施例中,連接引擎330是可由處理器202執(zhí)行的指令集合。在另一個(gè)實(shí)施例中,連接引擎330存儲(chǔ)在存儲(chǔ)器204中,并且可由處理器202訪(fǎng)問(wèn)和執(zhí)行。在任一實(shí)施例中,連接引擎330適于與處理器202、客戶(hù)設(shè)備106的其他組件和系統(tǒng)100的其他組件進(jìn)行協(xié)作和通信。
在一個(gè)實(shí)施例中,連接引擎330包括模塊庫(kù)(未示出)。模塊可以包括展現(xiàn)應(yīng)用的功能的代碼和例程的集合。例如,電話(huà)模塊展現(xiàn)電話(huà)應(yīng)用的功能(例如,打電話(huà)、接收呼叫、檢索語(yǔ)音郵件、訪(fǎng)問(wèn)聯(lián)系人列表等)。在一個(gè)實(shí)施例中,模塊展現(xiàn)應(yīng)用(例如,電話(huà)應(yīng)用)的功能,使得用戶(hù)可以通過(guò)另一客戶(hù)設(shè)備106(例如,汽車(chē))在客戶(hù)設(shè)備(例如,電話(huà))上訪(fǎng)問(wèn)這樣的功能。在一些實(shí)施例中,某些特征和功能可能要求特定設(shè)備或設(shè)備類(lèi)型的存在。例如,在一些實(shí)施例中,電話(huà)或sms文本功能通過(guò)汽車(chē)可能不可用,除非汽車(chē)與電話(huà)通信地耦合。模塊庫(kù)和模塊的模塊化性質(zhì)可以有助于易于更新當(dāng)應(yīng)用程序被更新時(shí)或者當(dāng)使語(yǔ)音和連接引擎與新應(yīng)用程序接口變得理想。
在一些實(shí)施例中,當(dāng)需要很長(zhǎng)時(shí)間才能完成的功能(例如,生成長(zhǎng)報(bào)告)時(shí),代理/助理將在功能完成時(shí)通知用戶(hù)(例如tts、電子郵件、sms文本等)。在一個(gè)這樣的實(shí)施例中,系統(tǒng)100確定最快的方式來(lái)聯(lián)系上,例如,系統(tǒng)確定用戶(hù)登錄到facebook并向用戶(hù)發(fā)送facebook消息說(shuō)明功能完成。
在一個(gè)實(shí)施例中,系統(tǒng)100的語(yǔ)音助理包括用于與一個(gè)或多個(gè)其他語(yǔ)音助理(例如,apple'ssiri、microsoft'scortana、google'sgooglenow等)進(jìn)行交互的一個(gè)或多個(gè)模塊。例如,在一個(gè)實(shí)施例中,響應(yīng)于用戶(hù)提供包括快捷方式或關(guān)鍵字(例如“針對(duì)x搜索googlenow”或“問(wèn)siriy”)的語(yǔ)音輸入,連接模塊330選擇模塊330用于分別連接到googlenow或者與siri交互,并將查詢(xún)轉(zhuǎn)發(fā)給該語(yǔ)音助理。在一個(gè)實(shí)施例中,語(yǔ)音和連接引擎109/124可以監(jiān)視用于觸發(fā)系統(tǒng)100的個(gè)人助理的喚醒字的語(yǔ)音輸入,以恢復(fù)對(duì)用戶(hù)體驗(yàn)流的控制(例如,恢復(fù)對(duì)話(huà)或提供功能和幫助)。這樣的實(shí)施例有利地允許操作系統(tǒng)100的實(shí)體為其客戶(hù)提供對(duì)其他語(yǔ)音助理及其特征的訪(fǎng)問(wèn)。例如,汽車(chē)制造商可以有利地允許客戶(hù)訪(fǎng)問(wèn)該客戶(hù)的移動(dòng)電話(huà)的語(yǔ)音助理(例如當(dāng)客戶(hù)使用iphone時(shí)的siri)或者用另一個(gè)語(yǔ)音助理補(bǔ)充客戶(hù)的語(yǔ)音助理選項(xiàng)(例如,提供對(duì)googlenow和/或cortana的訪(fǎng)問(wèn)當(dāng)客戶(hù)使用iphone時(shí))。
連接引擎330處理用戶(hù)的預(yù)期請(qǐng)求。在一個(gè)實(shí)施例中,連接引擎330從nlu引擎326接收元組,基于元組中的動(dòng)作者(電話(huà))確定模塊(例如,電話(huà)模塊),并提供元組的動(dòng)作(例如調(diào)用)和實(shí)體/項(xiàng)(例如greg)到該確定的模塊,并且該模塊使得該動(dòng)作者應(yīng)用程序使用該實(shí)體/項(xiàng)目(例如,使得該電話(huà)應(yīng)用程序呼叫g(shù)reg)執(zhí)行該動(dòng)作。
示例服務(wù)器端語(yǔ)音和連接引擎124
現(xiàn)在參考圖4,根據(jù)一個(gè)實(shí)施例更詳細(xì)地示出服務(wù)器端語(yǔ)音和連接引擎124。在所圖示的實(shí)施例中,服務(wù)器端語(yǔ)音和連接引擎124包括上下文代理422,上下文引擎424和聯(lián)合引擎426。將認(rèn)識(shí)到,包括在服務(wù)器端語(yǔ)音和連接引擎124的部件422、424、426不必都在相同的語(yǔ)音和連接服務(wù)器122上。在一個(gè)實(shí)施例中,模塊422、424、426和/或其功能被分布在多個(gè)語(yǔ)音和連接服務(wù)器122上。
上下文代理422包括用于同步客戶(hù)設(shè)備106和語(yǔ)音和連接服務(wù)器122之間的上下文并維持同步的代碼和例程。在一個(gè)實(shí)施例中,上下文代理422是可由處理器202執(zhí)行的指令集合。在另一個(gè)實(shí)施例中,上下文代理422存儲(chǔ)在存儲(chǔ)器204中,并且可由處理器202訪(fǎng)問(wèn)和執(zhí)行。在任一實(shí)施例中,上下文代理422適于與處理器202、語(yǔ)音和連接服務(wù)器122的其他部件(例如經(jīng)由總線(xiàn)206)、系統(tǒng)100的其他部件(例如,經(jīng)由通信單元208的客戶(hù)設(shè)備106)以及服務(wù)器端語(yǔ)音和連接引擎124的其他部件的協(xié)作和通信。
如上文參考客戶(hù)端上下文持有者324所討論的,上下文代理422作為服務(wù)器端上下文持有者操作,并與客戶(hù)端上下文持有者324同步。在一個(gè)實(shí)施例中,如果客戶(hù)端和服務(wù)器端的上下文不相同,客戶(hù)端取代。客戶(hù)端取代服務(wù)器端可能是有益的,因?yàn)榭蛻?hù)端更直接地與用戶(hù)112進(jìn)行交互,因此更可能具有更準(zhǔn)確的實(shí)時(shí)數(shù)據(jù)(例如位置、亮度、本地時(shí)間、溫度、速度等)用于定義上下文,因?yàn)?,例如,相關(guān)聯(lián)的傳感器位于客戶(hù)設(shè)備106和網(wǎng)絡(luò)102可靠性可能會(huì)影響服務(wù)器端維護(hù)準(zhǔn)確和最新上下文的能力。
在一個(gè)實(shí)施例中,上下文代理422將當(dāng)前上下文傳遞給上下文引擎424。例如,上下文代理通信地耦合到上下文引擎424以發(fā)送當(dāng)前上下文。在一個(gè)實(shí)施例中,上下文代理422將當(dāng)前上下文存儲(chǔ)在存儲(chǔ)設(shè)備241(或通信可訪(fǎng)問(wèn)的任何其他非瞬態(tài)存儲(chǔ)介質(zhì))中,并且上下文引擎424可以通過(guò)訪(fǎng)問(wèn)存儲(chǔ)設(shè)備241(或其他非瞬態(tài)存儲(chǔ)介質(zhì))檢索當(dāng)前下下文。
上下文引擎424包括用于生成和維護(hù)一個(gè)或多個(gè)上下文的代碼和例程。在一個(gè)實(shí)施例中,上下文引擎424是可由處理器202執(zhí)行的指令集合。在另一個(gè)實(shí)施例中,上下文引擎424被存儲(chǔ)在存儲(chǔ)器204中,并且可由處理器202訪(fǎng)問(wèn)和執(zhí)行。在任一實(shí)施例中,上下文引擎424適于與處理器202、服務(wù)器端語(yǔ)音和連接平臺(tái)124的其他組件以及系統(tǒng)的其他部件進(jìn)行協(xié)作和通信。
在一個(gè)實(shí)施例中,上下文引擎424歸檔當(dāng)前上下文以便創(chuàng)建上下文的歷史。這樣的實(shí)施例可以與機(jī)器學(xué)習(xí)結(jié)合使用以識(shí)別模式或習(xí)慣,預(yù)測(cè)工作流程中的下一步驟等,以通知對(duì)nlu引擎326的理解或主動(dòng)啟動(dòng)對(duì)話(huà)。例如,假設(shè)用戶(hù)x是來(lái)自用戶(hù)類(lèi)型x的組的封閉簡(jiǎn)檔;在一個(gè)實(shí)施例中,上下文引擎424檢測(cè)x與組中的所有其他人之間的差異以捕獲特定行為、習(xí)慣、查詢(xún)等并為用戶(hù)創(chuàng)造主動(dòng)性。例如,假設(shè)用戶(hù)要求劇院,并且上下文引擎424檢測(cè)到相同組中的其他用戶(hù)喜歡特定的日本餐館;在一個(gè)實(shí)施例中,系統(tǒng)100主動(dòng)地建議用戶(hù)在特征之后在該日本餐館預(yù)訂,因?yàn)橄到y(tǒng)100在用戶(hù)的日程表中檢測(cè)到他在電影之前沒(méi)有時(shí)間。在一些實(shí)施例中,系統(tǒng)100可以從餐廳菜單訪(fǎng)問(wèn)api(一些網(wǎng)站提供這種api)。系統(tǒng)100可以理解菜單或每日特色與用戶(hù)的偏好相適應(yīng),并且在代理的答案中直接閱讀菜單或每日特色地捕捉用戶(hù)的注意。
聯(lián)合引擎426包括用于管理用戶(hù)帳戶(hù)和客戶(hù)設(shè)備106中的一個(gè)或多個(gè)的代碼和例程。在一個(gè)實(shí)施例中,聯(lián)合引擎426是可由處理器202執(zhí)行的指令集合。在另一實(shí)施例中,聯(lián)合引擎426被存儲(chǔ)在存儲(chǔ)器204中并且可由處理器202訪(fǎng)問(wèn)和執(zhí)行。在任一實(shí)施例中,聯(lián)合引擎426適于與處理器202、應(yīng)用服務(wù)器122的其他部件和開(kāi)發(fā)應(yīng)用124的其它部件進(jìn)行協(xié)作和通信。
在一個(gè)實(shí)施例中,聯(lián)合引擎426管理統(tǒng)一的標(biāo)識(shí)。統(tǒng)一標(biāo)識(shí)可以包括但不限于用戶(hù)的帳戶(hù)(例如facebook、google+、twitter等)中的一個(gè)或多個(gè)、用戶(hù)的客戶(hù)設(shè)備106(例如平板電腦、移動(dòng)電話(huà)、電視、汽車(chē)等)、以前的語(yǔ)音輸入和對(duì)話(huà)等,以便基于用戶(hù)的社交網(wǎng)絡(luò)和/或習(xí)慣來(lái)增強(qiáng)用戶(hù)體驗(yàn)。統(tǒng)一標(biāo)識(shí)提供關(guān)于用戶(hù)的匯總信息,其可以增強(qiáng)系統(tǒng)100的特征和功能。例如,假設(shè)用戶(hù)112提供輸入“我需要汽油”。在一個(gè)實(shí)施例中,訪(fǎng)問(wèn)統(tǒng)一標(biāo)識(shí)的匯總數(shù)據(jù)可以允許系統(tǒng)100理解用戶(hù)的預(yù)期請(qǐng)求是針對(duì)到加油站的指示,并且加油站應(yīng)當(dāng)在用戶(hù)去最喜歡的酒吧的路上(例如,到用戶(hù)忠誠(chéng)的加油站的品牌,其具有最低的天然氣價(jià)格,即沿著去酒吧的方向行駛,即使在用戶(hù)后方有更靠近的加油站,或者更靠近但是不在系統(tǒng)100確定用戶(hù)正在前進(jìn)的路上,因?yàn)樗窃谛瞧谖逑挛?點(diǎn)之后,并且匯總數(shù)據(jù)表明用戶(hù)在周五工作后前往最喜歡的酒吧)。在另一示例中,系統(tǒng)100可以使用匯總數(shù)據(jù)來(lái)選擇并將用戶(hù)引導(dǎo)到特定餐館(例如,基于匯總數(shù)據(jù),例如使用諸如開(kāi)放表格的服務(wù)做的之前的預(yù)約、在yelp上用戶(hù)的餐廳評(píng)價(jià)和先前的語(yǔ)音查詢(xún)以及用戶(hù)112和系統(tǒng)100之間關(guān)于食物的對(duì)話(huà))。
聯(lián)合引擎426管理用戶(hù)的設(shè)備以協(xié)調(diào)用戶(hù)從一個(gè)客戶(hù)設(shè)備106到另一個(gè)的轉(zhuǎn)換。例如,假設(shè)用戶(hù)112經(jīng)由用戶(hù)的平板電腦(即,客戶(hù)設(shè)備106)已經(jīng)請(qǐng)求了今天的標(biāo)題,并且系統(tǒng)100開(kāi)始向用戶(hù)112讀取頭條新聞。還假定用戶(hù)112然后意識(shí)到他/她將工作遲到,并請(qǐng)求停止頭條新聞的閱讀。在一個(gè)實(shí)施例中,聯(lián)合引擎426管理用戶(hù)從平板電腦到用戶(hù)的汽車(chē)(即,另一個(gè)客戶(hù)設(shè)備106)的轉(zhuǎn)換,使得用戶(hù)112一旦在汽車(chē)中可以請(qǐng)求系統(tǒng)100繼續(xù)并且系統(tǒng)100將繼續(xù)從平板電腦上離開(kāi)的位置處讀取頭條新聞。聯(lián)合引擎426還可以在用戶(hù)到達(dá)工作時(shí)提出和管理向用戶(hù)到移動(dòng)電話(huà)(即,另一個(gè)客戶(hù)設(shè)備106)的轉(zhuǎn)換。這樣的實(shí)施例有利地提供從一個(gè)客戶(hù)設(shè)備106到另一個(gè)的服務(wù)連續(xù)性或“連續(xù)服務(wù)”。在另一示例中,用戶(hù)可以在沙發(fā)上經(jīng)平板電腦計(jì)劃公路旅行,并將路線(xiàn)映射到汽車(chē)的導(dǎo)航系統(tǒng)中。在一個(gè)實(shí)施例中,系統(tǒng)100可以識(shí)別用戶(hù)具有在工作之前檢查頭條新聞并在去工作途中汽車(chē)內(nèi)繼續(xù)的習(xí)慣,并且當(dāng)是離開(kāi)工作的時(shí)間時(shí)(可能基于實(shí)時(shí)交通狀況數(shù)據(jù))可以在平板電腦上提示用戶(hù),并詢(xún)問(wèn)用戶(hù)是否希望汽車(chē)中恢復(fù)頭條新聞。
在一個(gè)實(shí)施例中,聯(lián)合引擎426將上下文從一個(gè)客戶(hù)設(shè)備106傳遞到另一個(gè),以便管理向接收設(shè)備的轉(zhuǎn)換。例如,聯(lián)合引擎426通信地耦合到接收方設(shè)備的客戶(hù)端上下文持有者324。在另一個(gè)實(shí)施例中,聯(lián)合引擎426將當(dāng)前上下文存儲(chǔ)在服務(wù)器122的存儲(chǔ)設(shè)備241(或通信可訪(fǎng)問(wèn)的任何其他非瞬態(tài)存儲(chǔ)介質(zhì))中,并且接收方設(shè)備106的客戶(hù)端上下文持有者324可以通過(guò)訪(fǎng)問(wèn)存儲(chǔ)設(shè)備241(或其他非瞬態(tài)存儲(chǔ)介質(zhì))來(lái)檢索當(dāng)前上下文。
示例方法
圖5,圖6和圖7描繪了由上述參考圖1-4描述的系統(tǒng)執(zhí)行的各種方法500、508、700。
參考圖5,示出了根據(jù)一個(gè)實(shí)施例的用于接收和處理使用語(yǔ)音和連接平臺(tái)的請(qǐng)求的示例方法500。在框502處,nlu引擎326接收經(jīng)識(shí)別的語(yǔ)音。在框504處,nlu引擎326接收上下文。在框506處,nlu引擎326可選地基于在框504處接收到的上下文預(yù)處理經(jīng)識(shí)別的語(yǔ)音。在框508處,nlu引擎326確定用戶(hù)的預(yù)期的請(qǐng)求。在框510處,連接引擎處理預(yù)期的請(qǐng)求,并且方法500結(jié)束。
參考圖6,示出了根據(jù)一個(gè)實(shí)施例的用于確定用戶(hù)的預(yù)期請(qǐng)求的示例方法508。在框602處,nlu引擎326基于用戶(hù)的請(qǐng)求和上下文生成元組。在框604處,nlu引擎326確定是否需要附加信息來(lái)完成元組。當(dāng)nlu引擎326確定不需要附加信息來(lái)完成元組(604-no)時(shí),方法508結(jié)束。當(dāng)nlu引擎326確定需要附加信息來(lái)完成元組(604-yes)時(shí),方法508在框606處繼續(xù)。
在框606處,工作繞行引擎328確定需要什么附加信息以完成元組,并且在框608處,針對(duì)用戶(hù)生成提示以提供所需的附加信息。在框610處,nlu引擎326基于對(duì)在框610處生成的提示的用戶(hù)的響應(yīng)來(lái)修改元組,并且該方法在框604繼續(xù),并且重復(fù)框604、606、608和610,直到nlu引擎326確定不需要附加信息來(lái)完成元組(604-no),方法508結(jié)束。
參考圖7,示出了根據(jù)另一實(shí)施例的用于接收和處理使用語(yǔ)音和連接平臺(tái)的請(qǐng)求的示例方法700。
在上述描述中,為了解釋的目的,闡述了許多具體細(xì)節(jié),以便提供對(duì)本公開(kāi)的透徹理解。然而,應(yīng)當(dāng)理解,可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)施本文描述的技術(shù)。此外,以框圖形式示出了各種系統(tǒng)、設(shè)備和結(jié)構(gòu),以避免模糊描述。例如,各種實(shí)現(xiàn)被描述為具有特定的硬件、軟件和用戶(hù)界面。然而,本公開(kāi)適用于可以接收數(shù)據(jù)和命令的任何類(lèi)型的計(jì)算設(shè)備以及提供服務(wù)的任何外圍設(shè)備。
在說(shuō)明書(shū)中對(duì)“一個(gè)實(shí)施例”或“一實(shí)施例”的的參考是指在至少一個(gè)實(shí)施例中包括與實(shí)施例相關(guān)的描述的特定特征、結(jié)構(gòu)或特性。在說(shuō)明書(shū)中的各個(gè)地方的短語(yǔ)“在一個(gè)實(shí)施例中”的出現(xiàn)不必都指代相同的實(shí)施例。
在一些實(shí)例中,各種實(shí)現(xiàn)可以在本文中呈現(xiàn)依據(jù)計(jì)算機(jī)存儲(chǔ)器內(nèi)的數(shù)據(jù)位的操作的算法和符號(hào)表示。算法在這里,并且通常被認(rèn)為是導(dǎo)致期望結(jié)果的前后一致的操作集合。這些操作是需要物理量的物理操作。通常,雖然不必須,這些數(shù)量采取能夠被存儲(chǔ)、傳送、組合、比較和以其他方式操作的電或磁信號(hào)的形式。有時(shí),主要是出于普遍使用的原因,將這些信號(hào)稱(chēng)為位、值、元件、符號(hào)、字符、術(shù)語(yǔ)、數(shù)字等。
然而,應(yīng)當(dāng)記住,所有這些和類(lèi)似的術(shù)語(yǔ)都應(yīng)該與適當(dāng)?shù)奈锢砹肯嚓P(guān)聯(lián),并且僅僅是適用于這些量的方便的標(biāo)簽。除非另有明確說(shuō)明,否則從以下討論中顯而易見(jiàn),可以理解,貫穿本公開(kāi),使用包括“處理”、“計(jì)算”、“運(yùn)算”、“確定”、“顯示”等的術(shù)語(yǔ)的討論是指計(jì)算機(jī)系統(tǒng)或類(lèi)似的電子計(jì)算設(shè)備的動(dòng)作和過(guò)程,其將表示為計(jì)算機(jī)系統(tǒng)的寄存器和存儲(chǔ)器內(nèi)的物理(電子)量的數(shù)據(jù)變換成類(lèi)似地表示為計(jì)算機(jī)系統(tǒng)的存儲(chǔ)器或寄存器或其他這樣的信息存儲(chǔ)、傳輸或顯示設(shè)備內(nèi)物理量的數(shù)據(jù)。
本文描述的各種實(shí)現(xiàn)可以涉及用于執(zhí)行本文的操作的裝置。該裝置可以為所需目的而被特別地構(gòu)造,或者它可以包括由存儲(chǔ)在計(jì)算機(jī)中的計(jì)算機(jī)程序選擇性地激活或重新配置的通用計(jì)算機(jī)。這樣的計(jì)算機(jī)程序可以被存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,包括但不限于任何類(lèi)型的盤(pán),包括軟盤(pán)、光盤(pán)、cdrom和磁盤(pán)、只讀存儲(chǔ)器(rom)、隨機(jī)存取存儲(chǔ)器(ram)、eprom,eeprom、磁或光卡、包括具有非易失性存儲(chǔ)器的usb密鑰的閃存或適于存儲(chǔ)電子指令的任何類(lèi)型的介質(zhì),每個(gè)耦合到計(jì)算機(jī)系統(tǒng)總線(xiàn)。
本文描述的技術(shù)可以采取完全硬件實(shí)現(xiàn)、完全軟件實(shí)現(xiàn)或包含硬件和軟件元件的實(shí)現(xiàn)的形式。例如,該技術(shù)可以在軟件中實(shí)現(xiàn),其包括但不限于固件、常駐軟件、微代碼等。
此外,該技術(shù)可以采用可從計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)可訪(fǎng)問(wèn)的計(jì)算機(jī)程序產(chǎn)品的形式,計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)提供由計(jì)算機(jī)或任何指令執(zhí)行系統(tǒng)使用或與計(jì)算機(jī)或任何指令執(zhí)行系統(tǒng)關(guān)聯(lián)的程序代碼。為了本說(shuō)明書(shū)的目的,計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)可以是任何非瞬態(tài)存儲(chǔ)裝置,其可以包含、存儲(chǔ)、通信、傳播或傳送以由指令執(zhí)行系統(tǒng)、裝置、或設(shè)備使用的或與指令執(zhí)行系統(tǒng)、裝置、或設(shè)備關(guān)聯(lián)的程序。
適于存儲(chǔ)和/或執(zhí)行程序代碼的數(shù)據(jù)處理系統(tǒng)可以包括至少一個(gè)通過(guò)系統(tǒng)總線(xiàn)直接或間接耦合到存儲(chǔ)器元件的處理器。存儲(chǔ)器元件可以包括在實(shí)際執(zhí)行程序代碼期間使用的本地存儲(chǔ)器、批量存儲(chǔ)器和高速緩存存儲(chǔ)器,其提供至少一些程序代碼的臨時(shí)存儲(chǔ),以便減少在執(zhí)行期間必須從批量存儲(chǔ)器檢索代碼的次數(shù)。輸入/輸出或i/o設(shè)備(包括但不限于鍵盤(pán)、顯示器、指點(diǎn)設(shè)備等)可以直接或通過(guò)中間i/o控制器耦合到系統(tǒng)。
網(wǎng)絡(luò)適配器還可以耦合到系統(tǒng)以使得數(shù)據(jù)處理系統(tǒng)能夠通過(guò)中間的私有和/或公共網(wǎng)絡(luò)耦合到其他數(shù)據(jù)處理系統(tǒng)、存儲(chǔ)設(shè)備、遠(yuǎn)程打印機(jī)等。無(wú)線(xiàn)(例如,wi-fitm)收發(fā)器、以太網(wǎng)適配器和調(diào)制解調(diào)器僅僅是網(wǎng)絡(luò)適配器的幾個(gè)示例。私有和公共網(wǎng)絡(luò)可以具有任何數(shù)量的配置和/或拓?fù)???梢越?jīng)由使用各種不同通信協(xié)議(包括例如各種因特網(wǎng)層、傳輸層或應(yīng)用層協(xié)議)的網(wǎng)絡(luò)在這些設(shè)備之間傳輸數(shù)據(jù)。例如,可以使用傳輸控制協(xié)議/互聯(lián)網(wǎng)協(xié)議(tcp/ip)、用戶(hù)數(shù)據(jù)報(bào)協(xié)議(udp)、傳輸控制協(xié)議(tcp)、超文本傳輸協(xié)議(http)、安全超文本傳輸協(xié)議(https)、基于http的動(dòng)態(tài)自適應(yīng)流(dash)、實(shí)時(shí)流協(xié)議(rtsp)、實(shí)時(shí)傳輸協(xié)議(rtp)和實(shí)時(shí)傳輸控制協(xié)議(rtcp)、互聯(lián)網(wǎng)語(yǔ)音協(xié)議(voip)、文件傳輸協(xié)議(ftp)、websocket(ws)、無(wú)線(xiàn)接入?yún)f(xié)議(wap)、各種消息協(xié)議(sms、mms、xms、imap、smtp、pop、webdav等)或其他已知協(xié)議經(jīng)由網(wǎng)絡(luò)傳輸數(shù)據(jù)。
最后,本文呈現(xiàn)的結(jié)構(gòu)、算法和/或接口并不固有地與任何特定的計(jì)算機(jī)或其它裝置相關(guān)。各種通用系統(tǒng)可以根據(jù)本文的教導(dǎo)與程序一起使用,或者可以證明構(gòu)造更專(zhuān)用的裝置來(lái)執(zhí)行所需的方法塊是方便的。各種這些系統(tǒng)所需的結(jié)構(gòu)將從上面的描述中出現(xiàn)。另外,不參照任何特定的編程語(yǔ)言描述該規(guī)范。應(yīng)當(dāng)理解,可以使用各種編程語(yǔ)言來(lái)實(shí)現(xiàn)本文所描述的說(shuō)明書(shū)的教導(dǎo)。
為了說(shuō)明和描述的目的,呈現(xiàn)了前述描述。它不旨在窮舉或?qū)⒄f(shuō)明書(shū)限制為所公開(kāi)的精確形式。根據(jù)上述教導(dǎo),許多修改和變化是可能的。它旨在本公開(kāi)的范圍不通過(guò)詳細(xì)的描述而被限制,而是由本申請(qǐng)的權(quán)利要求限制。應(yīng)當(dāng)理解,在不脫離其精神或基本特征的情況下,本說(shuō)明書(shū)可以以其他具體形式實(shí)施。類(lèi)似地,模塊、例程、特征、屬性、方法和其他方面的特定命名和劃分不是強(qiáng)制性的或重要的,并且實(shí)現(xiàn)說(shuō)明書(shū)或其特征的機(jī)制可以具有不同的名稱(chēng)、劃分和/或格式。
此外,本公開(kāi)的引擎、模塊、例程、特征、屬性、方法和其他方面可以被實(shí)現(xiàn)為軟件、硬件、固件或前述的任何組合。而且,無(wú)論在什么情況下說(shuō)明書(shū)的部件(其是模塊的示例)被實(shí)現(xiàn)為軟件,部件可以被實(shí)現(xiàn)為獨(dú)立程序、更大程序的一部分、多個(gè)單獨(dú)的程序、靜態(tài)或動(dòng)態(tài)鏈接庫(kù)、內(nèi)核可加載模塊、設(shè)備驅(qū)動(dòng)程序、和/或以現(xiàn)在或?qū)?lái)已知的任何其他方式。此外,本公開(kāi)絕不限于以任何特定編程語(yǔ)言或針對(duì)任何特定操作系統(tǒng)或環(huán)境的實(shí)現(xiàn)。因此,本公開(kāi)旨在說(shuō)明而不是限制在所附權(quán)利要求中闡述的主題的范圍。
附錄a:汽車(chē)個(gè)人助理和gopad
gopad項(xiàng)目摘要
gopad是一款配套產(chǎn)品,可通過(guò)提供更安全和更方便的車(chē)載android設(shè)備體驗(yàn)來(lái)生成android設(shè)備和車(chē)載用戶(hù)行為數(shù)據(jù)。gopad將更緊密地將選擇的android設(shè)備集成到車(chē)輛中。但是,gopad不限于與android設(shè)備集成,并且可以與其他設(shè)備(例如ios,windows,fire等)集成
gopad設(shè)備是一個(gè)硬件托架,將經(jīng)由夾子機(jī)構(gòu)被固定在擋風(fēng)玻璃附近的用戶(hù)車(chē)輛的儀表板載。它將提供以下特征:
·obd2讀卡器硬件設(shè)備,用于捕獲并傳輸車(chē)輛信息給系統(tǒng)用于分析和向用戶(hù)呈現(xiàn)
·托架中的藍(lán)牙無(wú)線(xiàn)電和雙麥克風(fēng),在缺乏內(nèi)置藍(lán)牙連接的車(chē)輛中提供免提能力
·免提手機(jī)使用,包括語(yǔ)音撥號(hào)和控制,其中音頻通過(guò)aux-in連接到車(chē)載立體聲系統(tǒng)
·免提導(dǎo)航,包括語(yǔ)音啟動(dòng)和語(yǔ)音控制,其中音頻通過(guò)aux-in連接到車(chē)載立體聲系統(tǒng)
·通過(guò)aux立體聲連接將音頻輸出到汽車(chē)立體聲的媒體播放
·通過(guò)usb(車(chē)載輔助電源端口)為android設(shè)備供電以用于充電和使用
·通過(guò)語(yǔ)音和已連接平臺(tái)為所有語(yǔ)音控制功能提供智能代理輔助
·云連接的web服務(wù),用于智能代理、用戶(hù)數(shù)據(jù)捕獲和通過(guò)語(yǔ)音和連接平臺(tái)傳送內(nèi)容
·在android設(shè)備上驅(qū)動(dòng)效率和反饋功能,增強(qiáng)用戶(hù)的駕駛體驗(yàn)
·在托架上一組優(yōu)化的物理控制設(shè)置,以進(jìn)一步實(shí)現(xiàn)android設(shè)備的無(wú)視線(xiàn)使用
·一個(gè)簡(jiǎn)單的應(yīng)用程序啟動(dòng)器機(jī)制,使得驅(qū)動(dòng)程序能夠輕松且安全地啟動(dòng)他們想要使用的應(yīng)用程序
·簡(jiǎn)單的物理/代理控制api,允許第三方軟件利用托架的物理按鈕
·免提接收短信閱讀
·免提facebook活動(dòng)閱讀
托架硬件
托架設(shè)計(jì)
機(jī)械設(shè)計(jì)
托架將被分為兩部分:1)底座托架單元,2)特定于設(shè)備的適配器。所有主要功能將進(jìn)入基座托架單元,其中適配器僅提供android特定于設(shè)備的物理和電氣配合功能。
托架的物理形狀因子應(yīng)適合設(shè)備+適配器(安全),指定的物理控制和托架母板,同時(shí)減小尺寸和體積。設(shè)備不能向后或倒置插入。
托架電子設(shè)備的冷卻應(yīng)被動(dòng)地利用從用戶(hù)的視野隱藏的通風(fēng)口以達(dá)最大程度的可能,或并入設(shè)計(jì)中。
工業(yè)設(shè)計(jì)
托架的整體設(shè)計(jì)應(yīng)利用盡可能少的直觀(guān)觀(guān)察/互動(dòng),幫助用戶(hù)完成動(dòng)作。按鈕應(yīng)具有觸覺(jué)差異,適當(dāng)時(shí)應(yīng)使用聽(tīng)覺(jué)/觸覺(jué)提示等。
托架工業(yè)設(shè)計(jì)是tbd,但是為了公開(kāi)示范的目的,需要非常高的配合和完成水平。托架感覺(jué)像到奢侈品級(jí)的實(shí)際商品。托架在最好的商品奧迪或梅賽德斯車(chē)內(nèi)部并沒(méi)有感覺(jué)到不相稱(chēng),并且在材料質(zhì)量和演出方面與這些內(nèi)飾相匹配。
涂層材料探索應(yīng)包括油漆、加工金屬、加工塑料、橡膠涂料等。
物理控制
按紐
托架將包括一些物理控制(按鈕),以幫助無(wú)眼睛的使用。
需要以下按鈕:
·代理按鈕:激活語(yǔ)音控制,激活應(yīng)用啟動(dòng)器等
·前進(jìn)按鈕:下一個(gè)媒體軌道,電話(huà)呼叫結(jié)束/拒絕
·返回按鈕:以前的媒體軌道,電話(huà)呼叫應(yīng)答
·播放/暫停按鈕:播放或暫停媒體播放,電話(huà)呼叫靜音
按鈕可以基于它們?nèi)绾伪辉试S多重重載操作(單按,雙按,長(zhǎng)按等)。
燈光
需要用于在低光環(huán)境中使用的物理控制的背光/高亮顯示。照明/圖列應(yīng)該表現(xiàn)如下:
·前進(jìn)/通話(huà)結(jié)束按鈕:應(yīng)使用默認(rèn)照明,除非電話(huà)活躍。當(dāng)呼叫處于活動(dòng)狀態(tài)時(shí),呼叫結(jié)束圖例將照亮,直到通話(huà)結(jié)束。
·返回/通話(huà)應(yīng)答:應(yīng)使用默認(rèn)照明,除非電話(huà)正在接入。
·播放/暫停,靜音:當(dāng)呼叫處于活動(dòng)狀態(tài)時(shí),呼叫靜音圖例將亮起。如果按下按鈕,呼叫應(yīng)進(jìn)入靜音狀態(tài),靜音圖例背景燈應(yīng)變?yōu)榧t色以指示靜音狀態(tài)。再次按下該按鈕將切換靜音狀態(tài)和圖例背光顏色。
需要一個(gè)無(wú)妨礙的和/或有吸引力的指示燈來(lái)指示托架上電。
可升級(jí)固件
托架固件被設(shè)計(jì)使得現(xiàn)場(chǎng)升級(jí)可以在設(shè)備上運(yùn)行的gopadandroid應(yīng)用程序的控制下執(zhí)行。
機(jī)制存在從損壞的固件更新恢復(fù),諸如可能由在更新操作期間設(shè)備被從托架中移除造成。
usb音頻
托架設(shè)計(jì)可以容納從設(shè)備接收usb音頻(當(dāng)設(shè)備具有該功能時(shí)),并將其轉(zhuǎn)播到托架線(xiàn)外以便通過(guò)汽車(chē)立體聲auxin進(jìn)行播放。功率
最大電源
除了自己的電源需求外,托架也可以能夠隨時(shí)為設(shè)備提供5.1v的2a。
設(shè)備充電
托架可以為每個(gè)設(shè)備提供足夠的電力,以便在同時(shí)使用以下功能時(shí)可以增加其充電狀態(tài):
·免提電話(huà)呼叫進(jìn)行中
·免提導(dǎo)航進(jìn)行中
·媒體播放進(jìn)行中(可能已暫停)
唯一設(shè)備和版本id
托架可能支持唯一的設(shè)備id以及硬件和固件版本號(hào)。android應(yīng)用程序可以能夠讀取/查詢(xún)這些唯一id。
托架記錄
托架可以支持針對(duì)軟件開(kāi)發(fā)和調(diào)試目的的活動(dòng)記錄。android應(yīng)用程序可以訪(fǎng)問(wèn)這些日志。
要記錄的項(xiàng)目的示例包括但不限于以下內(nèi)容:usb連接狀態(tài),按鈕按下,藍(lán)牙連接狀態(tài)等。
電纜
所需電纜是:
·usb電纜(供電)
·立體聲輔助電纜(用于音頻輸出)
obd2讀卡器
需要硬件obd2讀卡器設(shè)備。該設(shè)備將收集車(chē)輛信息并將其上傳到opi系統(tǒng)進(jìn)行分析并隨后向用戶(hù)呈現(xiàn)。
obd2讀卡器模塊將包括一個(gè)藍(lán)牙無(wú)線(xiàn)電,并在每當(dāng)gopad使用時(shí)收集信息。它將信息傳輸?shù)皆O(shè)備,隨后將其上傳到opi系統(tǒng)進(jìn)行分析。
一個(gè)備用的obd2讀卡器模塊,其包括一個(gè)每當(dāng)車(chē)輛i被駕駛時(shí)收集車(chē)輛信息的蜂窩無(wú)線(xiàn)電,無(wú)論是否使用gopad,對(duì)于未來(lái)的gopad版本來(lái)說(shuō)是非常需要的。該解決方案將與gopad2開(kāi)發(fā)并行進(jìn)行研究。需要第三方合作伙伴(oem來(lái)源)。
基于gopad的免提功能
對(duì)于缺乏固有藍(lán)牙免提功能的車(chē)輛,gopad將提供此類(lèi)功能。需要以下硬件部件。
雙麥克風(fēng)
需要雙重麥克風(fēng),以及回聲消除和噪聲抑制技術(shù)。需要非常高水平的音頻質(zhì)量。期望電話(huà)呼叫遠(yuǎn)程端的人無(wú)法經(jīng)由車(chē)載免提設(shè)備確定用戶(hù)正在通話(huà)。
音頻質(zhì)量基準(zhǔn)設(shè)備是plantronicsvoyagerlegendbt耳機(jī)。
藍(lán)牙無(wú)線(xiàn)電
gopad托架將包括支持免提配置文件的藍(lán)牙無(wú)線(xiàn)電。當(dāng)設(shè)備被插入托架時(shí),其將自動(dòng)連接到托架bt無(wú)線(xiàn)電,并在移開(kāi)時(shí)斷開(kāi)。如果bt連接由于任何原因缺失,連接將立即重新建立。
android應(yīng)用軟件-–發(fā)布的一個(gè)實(shí)施例
輕量級(jí)啟動(dòng)器(launcher)
當(dāng)設(shè)備放入托架時(shí),輕量級(jí)啟動(dòng)器可能會(huì)自動(dòng)激活。如果激活,當(dāng)手機(jī)從托架中取出時(shí),其應(yīng)取消激活。初始設(shè)置經(jīng)驗(yàn)應(yīng)盡可能平滑,并且需要用戶(hù)進(jìn)行最小的手動(dòng)配置。
首次發(fā)布時(shí),啟動(dòng)器可以訪(fǎng)問(wèn)以下功能:
·默認(rèn)快捷鍵欄:
o電話(huà)呼叫
o消息:文本,郵件和facebook消息
o導(dǎo)航
o新聞廣播員:一般和主題新聞+facebook用戶(hù)時(shí)間表
o媒體播放:本地和在線(xiàn)流媒體
·汽車(chē)個(gè)人助理
·應(yīng)用程序列表
·車(chē)輛模塊
·gopad設(shè)置
一旦插入到托架中,啟動(dòng)器將會(huì)在短時(shí)間內(nèi)顯示splash屏幕。
然后它將顯示輕量級(jí)啟動(dòng)器主屏幕并等待用戶(hù)輸入。
隨后“代理”按鈕的雙按,無(wú)論當(dāng)前哪個(gè)應(yīng)用程序在前臺(tái),都會(huì)啟動(dòng)輕量級(jí)啟動(dòng)器,并允許用戶(hù)選擇新功能。如果gopad應(yīng)用程序已經(jīng)處于前臺(tái),則“代理”按鈕的雙按將使用戶(hù)返回主屏幕。
系統(tǒng)卷
啟動(dòng)器將音頻輸出音量設(shè)置為固定水平(tbd),用戶(hù)將使用車(chē)輛立體聲音量控制來(lái)調(diào)節(jié)音量。
屏幕亮度
在在托架中時(shí),設(shè)備應(yīng)該被強(qiáng)制自動(dòng)屏幕亮度控制。當(dāng)設(shè)備從托架中取出時(shí),應(yīng)該恢復(fù)到用戶(hù)的設(shè)置。
物理控制
托架上的物理控制將具有以下功能,取決于它們的使用方式:
汽車(chē)個(gè)人助理
汽車(chē)個(gè)人助理(代理)通過(guò)單按代理按鈕被激活。代理將語(yǔ)音響應(yīng),指示其就緒狀態(tài)。
代理按鈕的順序行為有三個(gè)步驟:
1.等待模式:用戶(hù)需要按按鈕激活語(yǔ)音識(shí)別
2.說(shuō)話(huà)模式:代理向用戶(hù)說(shuō)出提示
3.聆聽(tīng)模式:代理正在聽(tīng)用戶(hù)的句子。
代理將在此發(fā)布中處理的功能僅限于:
·特征類(lèi)別之間的應(yīng)用內(nèi)導(dǎo)航(電話(huà),留言,導(dǎo)航,媒體,新聞/facebook,車(chē)輛,設(shè)置)
·呼叫應(yīng)答/呼叫拒接/從聯(lián)系人中撥打電話(huà)/從呼叫歷史中撥打電話(huà)/撥打任意號(hào)碼。由于拒絕呼叫似乎不被api支持,如果用戶(hù)選擇拒絕,我們應(yīng)該停止響鈴并清除來(lái)電顯示,然后允許呼叫自然滾動(dòng)到語(yǔ)音郵件,就好像用戶(hù)沒(méi)有應(yīng)答(這基本上是發(fā)生的事情)。
·啟動(dòng)/取消導(dǎo)航。直接說(shuō)地址或間接說(shuō)地址(通過(guò)部分地址:國(guó)家,城鎮(zhèn),街道,...),從聯(lián)系人處獲取地址,從位置收藏夾獲取地址。
·搜索本地商家(“為我找到最近的星巴克”),然后啟動(dòng)導(dǎo)航。
o本地商家在googlemapsapi或yelp中找到,通用連接器需要在將來(lái)允許任何本地商家位置源api的集成。
·播放本地媒體。播放列表/專(zhuān)輯/藝術(shù)家/歌曲/隨機(jī)播放(shuffle)。
o在線(xiàn)媒體需要整合在cpa的第二版中:spotify,pandora,
·車(chē)輛狀態(tài)警告(僅限公告)。燃油低。檢查發(fā)動(dòng)機(jī)燈。等等。
·按名稱(chēng)啟動(dòng)第三方應(yīng)用程序。
·選擇和閱讀新聞?lì)悇e
·閱讀facebook更新
需要消除多個(gè)匹配的消除功能(見(jiàn)下面的屏幕)。
一般用戶(hù)體驗(yàn):語(yǔ)音和一般模式
一般模式
構(gòu)建應(yīng)用程序語(yǔ)音場(chǎng)景的方法是基于事實(shí):
·語(yǔ)音識(shí)別工作的可能性非常有限
·代理商需要限制負(fù)面的互動(dòng)
·用戶(hù)需要給出盡可能少的語(yǔ)音命令來(lái)實(shí)現(xiàn)他想做的動(dòng)作。
·任何交互的表現(xiàn)需要通過(guò)時(shí)間評(píng)估,而不是通過(guò)asr置信。
為了使這一愿景取得成功,代理商需要使用兩種類(lèi)型的場(chǎng)景的智能組合:直接語(yǔ)音模式和工作繞行模式。
直接語(yǔ)音模式
直接語(yǔ)音模式在語(yǔ)音識(shí)別領(lǐng)域是通常的。他們的質(zhì)量由asr的置信和nlu(自然語(yǔ)言理解)的置信證實(shí)。
在電話(huà)模塊和打電話(huà)動(dòng)作的情況下,你可以要求“呼叫bastienvidal”(與1個(gè)電話(huà)號(hào)碼唯一聯(lián)系),代理商將直接找到聯(lián)系人并向用戶(hù)建議呼叫bastienvidal的動(dòng)作。
直接語(yǔ)音模式的問(wèn)題是當(dāng)你與用戶(hù)的語(yǔ)音查詢(xún)沒(méi)有直接匹配時(shí),或者當(dāng)你需要更多來(lái)自用戶(hù)的信息以實(shí)現(xiàn)明確的操作時(shí),會(huì)發(fā)生什么。
案例示例:
·我想呼叫有很多電話(huà)號(hào)碼的人
·我想向具有多個(gè)電話(huà)號(hào)碼和電子郵件地址的人發(fā)送消息
·通過(guò)直接的語(yǔ)音識(shí)別地址是錯(cuò)誤的,并且我無(wú)法鍵入任何東西(因?yàn)轳{駛)
繞行模式(war)
war模式基于以下事實(shí):語(yǔ)音和連接平臺(tái)允許人與機(jī)器之間的繼續(xù)對(duì)話(huà)(在任何一輪問(wèn)題/答案之后,代理將自動(dòng)啟動(dòng)語(yǔ)音識(shí)別按鈕的激活),并創(chuàng)建暫時(shí)對(duì)話(huà)框矩陣上下文(見(jiàn)下文關(guān)于tdmc的描述)。
繼續(xù)對(duì)話(huà)框允許不同類(lèi)型的war方案的創(chuàng)建
·列表項(xiàng)選擇
o在任何具有導(dǎo)航項(xiàng)目步驟和數(shù)字選擇的列表的情況下
·頻率歷史主動(dòng)性
o
·逐步選擇
應(yīng)用程序的每個(gè)項(xiàng)目屏幕基于具有以下屬性的列表項(xiàng)目呈現(xiàn):
·每個(gè)項(xiàng)目具有從1到5的數(shù)字
·每個(gè)項(xiàng)目由標(biāo)簽讀取
一般項(xiàng)目清單介紹
·一般列表
o實(shí)體過(guò)濾器
o字母表過(guò)濾器
·字母數(shù)字
·歷史編號(hào)
歷史頻率列表呈現(xiàn)
飛濺屏幕
當(dāng)android應(yīng)用啟動(dòng)時(shí)并且每當(dāng)設(shè)備放置在托架中時(shí),將會(huì)顯示一個(gè)顯示品牌的飛濺屏幕。
登錄屏幕
當(dāng)電話(huà)第一次初始放置在托架中時(shí),或者當(dāng)用戶(hù)已經(jīng)明確地從android應(yīng)用程序退出時(shí),啟動(dòng)器登錄屏幕將跟隨濺潑屏幕。它將顯示品牌,并提供通過(guò)用戶(hù)名/密碼的登錄。還將呈現(xiàn)創(chuàng)建帳戶(hù)鏈接,允許用戶(hù)如果必要的話(huà)通過(guò)電子郵件、用戶(hù)名/密碼或facebook帳戶(hù)創(chuàng)建新帳戶(hù)。
主屏幕
當(dāng)按住主頁(yè)按鈕或手機(jī)放置在托架中后,主屏幕將顯示當(dāng)前位置的地圖,其中包含穿過(guò)頂部的到主要功能的快捷按鈕以及穿過(guò)底部的一些狀態(tài)信息(溫度和羅盤(pán)方向)。頂部欄還將適當(dāng)?shù)胤从碃顟B(tài)和通知信息。
主屏幕將顯示以下通知:
·未接來(lái)電
·到來(lái)消息
·車(chē)輛故障
電話(huà)
gopad將使用定制的gopad電話(huà)ux后的儲(chǔ)存android電話(huà)api。
來(lái)電通知
代理應(yīng)該大聲讀出來(lái)電信息(如果呼叫者在聯(lián)系人中呼叫者姓名,否則呼叫者號(hào)碼),靜音鈴聲并且暫停媒體播放,如果必要,然后請(qǐng)求用戶(hù)動(dòng)作。用戶(hù)可以通過(guò)以下三種方法之一響應(yīng):
·用聲音接受呼叫或拒絕呼叫并將其發(fā)送到語(yǔ)音信箱。
·通過(guò)屏幕上的觸摸按鈕接受/拒絕呼叫
·通過(guò)上一個(gè)曲/接受呼叫或下一曲/拒絕呼叫按鈕
一旦交互已經(jīng)結(jié)束,以及應(yīng)恢復(fù)暫停的媒體。
來(lái)自觸摸屏,來(lái)電將顯示如下:
呼出呼叫
通過(guò)按下代理按鈕可以語(yǔ)音地啟動(dòng)呼出呼叫以喚醒代理,然后與號(hào)碼或聯(lián)系人姓名一起說(shuō)出撥號(hào)命令。
如果多個(gè)號(hào)碼與聯(lián)系人姓名相匹配,則代理會(huì)說(shuō)出通過(guò)聯(lián)系新近度(即,最近主動(dòng)呼叫,最近被呼叫等等)排序的編號(hào)的選項(xiàng)列表然后按字母順序排列。用戶(hù)然后將語(yǔ)音地選擇要呼叫的選項(xiàng)號(hào)碼。代理將發(fā)出呼叫并更新該號(hào)碼的近似值。
通過(guò)電話(huà)觸摸屏通過(guò)以下方法可以啟動(dòng)呼叫:
呼叫狀態(tài)顯示
所有呼叫狀態(tài)信息將由屏幕頂部的狀態(tài)欄處理(參見(jiàn)上面的主屏幕)。
音頻播放
媒體播放
媒體播放器將被用于通過(guò)以下選擇類(lèi)別播放android本機(jī)媒體文件:
·藝術(shù)家
·專(zhuān)輯
·播放列表
通過(guò)字母跳轉(zhuǎn)到列表的子組,將有助于在長(zhǎng)列表中項(xiàng)目的快速選擇。例如:
可以用指尖擦洗(scrubbed)屏幕右邊界的字母表列表,以便快速導(dǎo)航。
針對(duì)媒體播放器的主要控制將通過(guò)代理。當(dāng)在給定類(lèi)別中多個(gè)匹配是可能的時(shí),代理將提供一個(gè)屏幕上號(hào)碼的列表,并允許用戶(hù)通過(guò)數(shù)字選擇匹配。例如:
當(dāng)播放時(shí)媒體播放器將顯示藝術(shù)家/專(zhuān)輯/歌曲信息,以及專(zhuān)輯封面(如果可用)。將顯示已過(guò)去的和總的時(shí)間??臻g允許的話(huà),也可以顯示下一曲的名稱(chēng)。
按住托架上的上一個(gè),下一個(gè)和播放/暫停按鈕可以適當(dāng)?shù)赜绊懖シ拧?/p>
媒體播放器應(yīng)在設(shè)備的默認(rèn)位置播放媒體文件(即媒體播放器可以訪(fǎng)問(wèn)來(lái)自其他媒體播放器的共享庫(kù))。
由于播放列表是特定媒體播放器,gopadmediaplayer應(yīng)從以下媒體播放器應(yīng)用程序?qū)氩シ帕斜恚?/p>
·googleplay音樂(lè)
·android音樂(lè)應(yīng)用
導(dǎo)航
基本導(dǎo)航
導(dǎo)航機(jī)制將通過(guò)存儲(chǔ)androidgooglenavigation應(yīng)用程序被處理。lwlauncher和代理將為google導(dǎo)航提供語(yǔ)音前端,其可以被用于通過(guò)選擇以下選各項(xiàng)之一來(lái)開(kāi)始導(dǎo)航到目的地:
·收藏
·最近的目的地
·址址簿聯(lián)系人
·任意地址(“加利福尼亞圣荷西西圣卡洛斯333號(hào)”)
輕量級(jí)launcher將啟動(dòng)google導(dǎo)航并將其移交目的地,此時(shí)google導(dǎo)航將接管作為導(dǎo)航提供商。
用戶(hù)可以能夠返回到launcher(或另一個(gè)應(yīng)用程序),并將navigation功能放在后臺(tái),而不取消導(dǎo)航功能,并在稍后返回。做這些的常用的方法包括雙按“代理”按鈕返回主屏幕或激活代理并請(qǐng)求新功能。
傳入短信響應(yīng)
代理應(yīng)以聲音方式通知用戶(hù)他們已經(jīng)收到短信,包括發(fā)件人的姓名,如果它在地址簿錄中,并給他們選擇以呼叫他們或發(fā)送自動(dòng)的“我現(xiàn)在開(kāi)車(chē),稍后給你回復(fù)”形式的用戶(hù)定義樣板回復(fù)你
傳入短信顯示
facebook活動(dòng)閱讀器
gopadfacebook活動(dòng)閱讀器將并入gopad應(yīng)用程序。這個(gè)特征將讀取facebook的墻壁帖子給用戶(hù),并為“喜歡”提供一個(gè)大按鈕。
facebook活動(dòng)
接收的facebook消息也將被讀取,與讀取傳入短信大致相同的方式。用戶(hù)可以向發(fā)送者發(fā)送樣板回復(fù)。
facebook消息
新聞閱讀器
gopad應(yīng)用程序?qū)孕侣剰V播員的的方式集成的新聞閱讀。它將支持以下功能:
·收藏
·最近
·新聞?lì)悇e(如科技,體育等)
·生日提醒
新聞故事將以易于解析的格式以全屏文本替代方式呈現(xiàn)。
車(chē)輛狀態(tài)/效率
啟動(dòng)車(chē)輛狀態(tài)特征將基于來(lái)自btobd閱讀器的數(shù)據(jù)顯示以下信息:
·如果車(chē)輛經(jīng)由obd支持燃油液位測(cè)量,則在需要燃油充滿(mǎn)之前以英里/公里的范圍和當(dāng)前速度的時(shí)間(該數(shù)值應(yīng)是保守的)。這應(yīng)該是根據(jù)最近行為的tbd窗口計(jì)算的。對(duì)于無(wú)法通過(guò)obd提供油箱填充狀態(tài)信息的汽車(chē),非常需要工作繞行。
·mpg這次行程和所有行程的平均運(yùn)行
·瞬時(shí)駕駛效率顯示,其基本地測(cè)量加速/減速率,并圖形地鼓勵(lì)駕駛員對(duì)加速器和制動(dòng)踏板輕柔,加上駕駛員隨時(shí)間如何執(zhí)行的歷史顯示(可能根據(jù)epa對(duì)汽車(chē)的等級(jí)繪制?)。
·行程統(tǒng)計(jì),包括過(guò)去的行程時(shí)間,行程中的效率,使用的燃料等。
·復(fù)位按鈕將行程統(tǒng)計(jì)設(shè)置為零
·需要即將來(lái)臨的維護(hù)(基于來(lái)自車(chē)輛數(shù)據(jù)庫(kù)中的維護(hù)計(jì)劃信息),根據(jù)最近的駕駛歷史最佳地轉(zhuǎn)變?yōu)闀r(shí)間(天)。
·故障診斷錯(cuò)誤代碼
·車(chē)輛安全(不安全的車(chē)輛行為,關(guān)鍵措施等)。
此外,針對(duì)以下高優(yōu)先級(jí)場(chǎng)景的聲音警報(bào)會(huì)中斷任何其他當(dāng)前顯示的功能,并且設(shè)備屏幕應(yīng)切換到具有錯(cuò)誤顯示的車(chē)輛狀態(tài)頁(yè)面:
·燃油低(閾值tbd,可以基于最近的駕駛變化-參見(jiàn)上文)。這取決于燃油水平閱讀能力(參見(jiàn)上文)。
·災(zāi)難性車(chē)輛錯(cuò)誤(錯(cuò)誤代碼清單為tbd),需要駕駛員立即動(dòng)作(即“一旦安全就側(cè)方停車(chē)并關(guān)閉發(fā)動(dòng)機(jī)”)
第三方應(yīng)用程序
gopad應(yīng)用程序?qū)⑻峁┮环N快速簡(jiǎn)便的方式來(lái)啟動(dòng)第三方android應(yīng)用程序,提供gopad本身不提供的功能。第三方應(yīng)用程序啟動(dòng)器將提供較大觸控目標(biāo),以便在駕駛車(chē)輛時(shí)使得容易啟動(dòng)應(yīng)用。
所呈現(xiàn)的應(yīng)用程序列表將由用戶(hù)配置,用戶(hù)將從設(shè)備上存在的所有應(yīng)用程序的列表中進(jìn)行選擇。
應(yīng)用啟動(dòng)器屏幕
設(shè)置
“設(shè)置”區(qū)域是用戶(hù)根據(jù)其偏好配置gopad應(yīng)用程序的位置。最終的設(shè)置列表是tbd,但將包括:
·傳入文本自動(dòng)回復(fù)樣板
·傳入facebook消息自動(dòng)回復(fù)樣板
·btobd2適配器選擇(從配對(duì)的btobd2適配器列表中)
·發(fā)動(dòng)機(jī)排量
·發(fā)動(dòng)機(jī)類(lèi)型(氣體或柴油)
·測(cè)量單位(英制或公制)
設(shè)置
車(chē)體標(biāo)識(shí)
需要標(biāo)識(shí)多個(gè)車(chē)輛/托架的能力。在每個(gè)車(chē)輛/托架基礎(chǔ)上追蹤的物品包括:
·牌照
·vin(如果obd不提供)
·托架唯一id
藍(lán)牙配對(duì)
托架配對(duì)
當(dāng)需要首次插入該托架時(shí),針對(duì)啟動(dòng)器的能力自動(dòng)將設(shè)備配對(duì)到托架。
對(duì)現(xiàn)有車(chē)輛hfp或a2dp的配對(duì)不是本發(fā)布的功能,不需要支持。
數(shù)據(jù)收集
應(yīng)收集以下數(shù)據(jù)并將其存儲(chǔ)在系統(tǒng)中:
·用戶(hù)名/電子郵件/電話(huà)號(hào)碼
·汽車(chē)信息
ovin#
o牌照#
·駕駛?cè)罩?所有錄入時(shí)間戳)
o汽車(chē)
■距離
■速度
■發(fā)動(dòng)機(jī)運(yùn)行時(shí)間
■位置
■導(dǎo)航目的地
o申請(qǐng)
■針對(duì)軟件細(xì)化目的所有用戶(hù)交互都應(yīng)被記錄
·錯(cuò)誤代碼日志
·汽油里程數(shù)
數(shù)據(jù)收集技術(shù)
應(yīng)采用針對(duì)數(shù)據(jù)的每份或類(lèi)型的數(shù)據(jù)收集的最簡(jiǎn)單方法。在可以提供代表用戶(hù)的數(shù)據(jù)的情況下,則應(yīng)該這樣做(例如,如果可以根據(jù)vin號(hào)碼確定油箱尺寸,而不是詢(xún)問(wèn)用戶(hù)關(guān)于該信息,則應(yīng)該這樣做)。
應(yīng)用程序應(yīng)包括牌照的相機(jī)捕獲,應(yīng)用程序可以從該牌照解析牌號(hào),并使用它來(lái)確定vin#和所有附加的伴隨數(shù)據(jù)。
數(shù)據(jù)匿名化
某些類(lèi)型的收集數(shù)據(jù)僅在總體上是有趣的-它在特定用戶(hù)形式中沒(méi)有任何價(jià)值。應(yīng)用程序本身的可用性數(shù)據(jù)(即按鈕點(diǎn)擊等的模式),由諸如mixpanel服務(wù)收集該種類(lèi)的,屬于該類(lèi)別。在可行情況下,為了數(shù)據(jù)隱私的原因該數(shù)據(jù)應(yīng)該是匿名的。
軟件更新
輕量級(jí)啟動(dòng)器需要一個(gè)ota更新機(jī)制,以允許將新的軟件版本被推出到現(xiàn)場(chǎng)的設(shè)備。
物理/代理控制api
需要一個(gè)簡(jiǎn)單的軟件api,其允許第三方應(yīng)用程序開(kāi)發(fā)人員響應(yīng)托架物理控制以及代理命令,當(dāng)設(shè)備在托架中并且其應(yīng)用程序正在前臺(tái)運(yùn)行(或在某些情況下運(yùn)行)。
該api應(yīng)盡可能簡(jiǎn)單。
物理控制
physicalcontrolsapi應(yīng)允許三個(gè)命令輸入(單按,雙按,長(zhǎng)按)僅針對(duì)以下三個(gè)按鈕:
·上一曲
·播放/暫停
·下一曲
不允許第三方應(yīng)用訪(fǎng)問(wèn)代理按鈕。
代理
第三方應(yīng)用程序可以通過(guò)簡(jiǎn)單的api注冊(cè)接受特定的語(yǔ)音命令。命令的示例可以包括:
·“下一曲”
·“上一曲”
·“暫停”
軟件ui流
市場(chǎng)機(jī)會(huì)
附錄b:應(yīng)用一般介紹
a.應(yīng)用說(shuō)明
應(yīng)用程序oscar是當(dāng)你開(kāi)車(chē)時(shí)致力于你你最喜歡的應(yīng)用的使用的應(yīng)用程序。
oscar允許用戶(hù)在安全模式下使用任何功能或做任何動(dòng)作。創(chuàng)建的用戶(hù)體驗(yàn)是在任何情況下實(shí)現(xiàn)能力的關(guān)鍵。你可以隨時(shí)使用3種媒介:
·觸摸屏(應(yīng)用程序的按鈕界面)
·物理按鈕(在oe的情況下來(lái)自汽車(chē)或來(lái)自二級(jí)市場(chǎng)的托架)
·語(yǔ)音命令
關(guān)鍵的語(yǔ)音功能性是:
·撥打和接收呼叫
·發(fā)送和接收消息(文本,郵件和facebook)
·定義導(dǎo)航:一次拍攝。
·閱讀并分享新聞
·播放音樂(lè)
應(yīng)用程序基于以下引理:
·語(yǔ)音識(shí)別不工作=限制用戶(hù)的句子
·自然交互=盡可能快地關(guān)閉人類(lèi)對(duì)話(huà)
·限制代理的反饋長(zhǎng)度=短句
·限制代理的負(fù)面反饋=不,不,我不知道...
·限制用戶(hù)重復(fù)=不要問(wèn)“再說(shuō)一遍”
這5個(gè)引理是任何用戶(hù)體驗(yàn)的創(chuàng)建的核心。
b.應(yīng)用架構(gòu)
請(qǐng)去
c.灣基于架構(gòu)的用戶(hù)體驗(yàn)
d.檢測(cè)到關(guān)鍵創(chuàng)新
i.繼續(xù)對(duì)話(huà)
ii.全屏幕代理激活
iii.自動(dòng)喚醒
iv.列表導(dǎo)航
1.語(yǔ)音導(dǎo)航:下一個(gè),上一個(gè),第一個(gè),最后一個(gè)
2.字母轉(zhuǎn)到
3.語(yǔ)音播放列表
a.語(yǔ)音反饋優(yōu)化
i.來(lái)自詢(xún)問(wèn)
ii.來(lái)自以前的游戲
b.按步驟玩
4.選擇
a.通過(guò)目標(biāo)項(xiàng)的數(shù)量
b.通過(guò)目標(biāo)項(xiàng)的部分內(nèi)容
5.智能選擇
a.從駕駛員使用學(xué)習(xí)
v.列表過(guò)濾器
1.字母過(guò)濾器
2.歷史過(guò)濾器
3.頻率歷史
4.連續(xù)過(guò)濾器
vi.按鈕像素用戶(hù)體驗(yàn)
vii.
·電話(huà)模塊
e.介紹
f.結(jié)構(gòu)
g.描述
h.用戶(hù)體驗(yàn)
·消息模塊
·導(dǎo)航模塊
·新聞模塊
·媒體模塊
附錄c:
語(yǔ)音和連接平臺(tái)
執(zhí)行摘要
汽車(chē)市場(chǎng)正在進(jìn)行著他的一個(gè)新的演變中的一個(gè),我們可以稱(chēng)之為汽車(chē)市場(chǎng)的分裂,因?yàn)樗谶M(jìn)行許多不同種類(lèi)的破裂。從電動(dòng)發(fā)動(dòng)機(jī)到無(wú)駕駛車(chē),汽車(chē)的數(shù)字化正在向前發(fā)展,整個(gè)汽車(chē)制造商正面臨著關(guān)于數(shù)字生命周期對(duì)車(chē)輛生命周期的巨大挑戰(zhàn)之一!
但是最終,駕駛員是聲音,這個(gè)聲音想要停止以在路上獨(dú)自度過(guò)時(shí)間,這個(gè)時(shí)間可以在一個(gè)有用和有趣的時(shí)間轉(zhuǎn)化,如果我們可以在約束環(huán)境中創(chuàng)造新的用戶(hù)體驗(yàn),如果我們可以把汽車(chē)連接到數(shù)字世界,且多于用戶(hù)在任何情況下都用他喜歡應(yīng)用程序!
xbrainsoft創(chuàng)建了汽車(chē)個(gè)人助理產(chǎn)品,可擴(kuò)展和靈活的平臺(tái),與市場(chǎng)上所有的設(shè)備共同工作在車(chē)內(nèi)外連續(xù)的用戶(hù)體驗(yàn)中,允許混合模式和通過(guò)云和汽車(chē)嵌入式平臺(tái)之間的空中模式同步更新。
在任何情況下,在正確的時(shí)間,每個(gè)環(huán)境中最好的一個(gè)!xxxxx準(zhǔn)備面對(duì)數(shù)字世界短暫的生命周期的挑戰(zhàn),而不影響汽車(chē)的生命周期!
技術(shù)篇
摘要
xbrainsoft語(yǔ)音和連接平臺(tái)是高級(jí)平臺(tái),其在一些實(shí)施例中用于建立板載和非板載環(huán)境之間的鏈接。
基于混合、模塊化和不可知的架構(gòu),語(yǔ)音和互聯(lián)平臺(tái)在其嵌入式解決方案和非板載平臺(tái)之間提供自己的“空中”更新機(jī)制。
從具有無(wú)連接的嵌入式對(duì)話(huà)管理到非板擴(kuò)展語(yǔ)義處理功能,語(yǔ)音和連接平臺(tái)利用上下文同步加強(qiáng)混合管理,使得圍繞車(chē)輛連接的“缺失和恢復(fù)”的場(chǎng)景成為可能。
基于強(qiáng)健、創(chuàng)新和完全定制的自然語(yǔ)言理解技術(shù),語(yǔ)音和連接平臺(tái)提供了沉浸式的用戶(hù)體驗(yàn),而不依賴(lài)于特定的語(yǔ)音技術(shù)。
其多通道功能允許通過(guò)多種設(shè)備(車(chē)輛,電話(huà),平板電腦...)以普遍的方式進(jìn)行交互,由于完全同步機(jī)制,共享相同的每用戶(hù)上下文。
語(yǔ)音和連接平臺(tái)的集群服務(wù)器架構(gòu)是可擴(kuò)展的,并且因此可以響應(yīng)高負(fù)載和高消耗的服務(wù)。它建立在行業(yè)標(biāo)準(zhǔn)技術(shù)的基礎(chǔ)上,并實(shí)施關(guān)于通信安全和終端用戶(hù)隱私的最佳實(shí)踐。
語(yǔ)音和互聯(lián)平臺(tái)還提供了功能和開(kāi)發(fā)工具的完整集合,集成在完整的開(kāi)發(fā)環(huán)境中,以發(fā)明復(fù)雜的語(yǔ)音用戶(hù)交互流。
附加值
你你將在下面找到xbrainsoft技術(shù)的技術(shù)突破中的一些,《語(yǔ)音和互聯(lián)環(huán)境》其是由云平臺(tái)和嵌入式平臺(tái)組成的。
以下項(xiàng)目被呈現(xiàn)為重點(diǎn)。
·混合設(shè)計(jì):“服務(wù)器,嵌入式和自主同步”
通過(guò)設(shè)計(jì),語(yǔ)音和連接平臺(tái)提供了本地和遠(yuǎn)程兩者運(yùn)行的助理。任何助理的這種混合架構(gòu)建立在強(qiáng)壯的機(jī)制上,以分發(fā)處理,維護(hù)完整的上下文同步以及更新用戶(hù)界面甚至對(duì)話(huà)理解。
·用于對(duì)話(huà)框流創(chuàng)建的功能工具集
從起源來(lái)看,xbrainsoft正在大力提供繞行我們技術(shù)的最佳工具集,以加速和改進(jìn)助理的發(fā)展。它包括一個(gè)完整的開(kāi)發(fā)環(huán)境,其可以增強(qiáng)對(duì)話(huà)語(yǔ)言管理器、功能模塊的可重用性,任何vpa的部署自動(dòng)化或維護(hù)以及在任何客戶(hù)設(shè)備上的可移植性。
·標(biāo)識(shí)和設(shè)備聯(lián)合服務(wù)(vcp-fs)
語(yǔ)音和連接平臺(tái)聯(lián)合服務(wù)是聯(lián)合用戶(hù)標(biāo)識(shí)和設(shè)備的服務(wù)。vcp-fs處理用戶(hù)擁有的社交標(biāo)識(shí)(facebook,twitter,google+)和連接的設(shè)備,其以普及的方式通過(guò)虛擬個(gè)人助理增強(qiáng)提供的能力和功能。vcp聯(lián)合服務(wù)通過(guò)利用用戶(hù)的社交網(wǎng)絡(luò)甚至他的習(xí)慣來(lái)增強(qiáng)用戶(hù)體驗(yàn)。
汽車(chē)應(yīng)用程序套件(cpa)
在語(yǔ)音和互聯(lián)平臺(tái)的頂部,xbrainsoft為車(chē)輛提供了一套應(yīng)用程序,用于創(chuàng)建汽車(chē)個(gè)人助理(cpa)產(chǎn)品,由語(yǔ)音、觸摸屏或物理按鈕使用,如天氣、股票、新聞、電視節(jié)目、聯(lián)系人、日歷,電話(huà)等。
xbrainsoft還提出了sdk來(lái)創(chuàng)建完全集成的應(yīng)用程序,其可以訪(fǎng)問(wèn)汽車(chē)的can網(wǎng)絡(luò)、其gps位置和各種車(chē)輛傳感器,如溫度、雨刷狀態(tài)、發(fā)動(dòng)機(jī)狀態(tài)等。
·非板載數(shù)據(jù)同步器
語(yǔ)音和連接平臺(tái)提供全球數(shù)據(jù)同步系統(tǒng)。該機(jī)制覆蓋由了移動(dòng)數(shù)據(jù)連接的巡回和低容量引起的同步問(wèn)題。它提供了同步系統(tǒng)的可配置提取,旨在允許開(kāi)發(fā)人員關(guān)注哪些數(shù)據(jù)需要同步,而不是如何完成。
·外部api自動(dòng)平衡器
使用外部api是對(duì)場(chǎng)景的很好的增強(qiáng),但是當(dāng)服務(wù)可能變得不可用或如果客戶(hù)端可能想要使用取決于多個(gè)因素(價(jià)格,用戶(hù)訂閱...)的特定的服務(wù)時(shí),會(huì)有副作用。為了滿(mǎn)足這些具體要求,語(yǔ)音和連接平臺(tái)被設(shè)計(jì)為高可配置的,并將第三個(gè)數(shù)據(jù)提供商作為插件集成(例如:通過(guò)事件處理程序的api消費(fèi)管理以在微計(jì)費(fèi)管理系統(tǒng)上連接)。
功能不依賴(lài)于單個(gè)外部api,而是依賴(lài)于可以管理其中許多api的內(nèi)部提供者。遵循這一架構(gòu),vcp提供了一個(gè)可以配置為滿(mǎn)足xxxxx要求的自動(dòng)平衡系統(tǒng)。
·主動(dòng)對(duì)話(huà)
語(yǔ)音和連接平臺(tái)集成了專(zhuān)家系統(tǒng)和機(jī)制以在沒(méi)有初始請(qǐng)求的情況下與用戶(hù)開(kāi)始對(duì)話(huà)。
他們一起提供了實(shí)現(xiàn)復(fù)雜任務(wù)的工具集,一旦用戶(hù)關(guān)注可用,給出相關(guān)信息或管理主動(dòng)對(duì)話(huà)頻率。
·真實(shí)背景對(duì)話(huà)框的理解
“真實(shí)場(chǎng)景對(duì)話(huà)理解”是具有以下參數(shù)的上下文和多維對(duì)話(huà)流:上下文歷史、對(duì)話(huà)歷史、用戶(hù)歷史、用戶(hù)簡(jiǎn)檔、本地化、當(dāng)前上下文域等。
分析每個(gè)對(duì)話(huà)的這種上下文方法允許對(duì)任何對(duì)話(huà)流的最好的一個(gè)準(zhǔn)確性的理解和許多其他積極的效果,作為最小化必要的存儲(chǔ)器以存儲(chǔ)助理的知識(shí)、任何種類(lèi)的中斷之后的對(duì)話(huà)的連續(xù)性、任何應(yīng)用程序的翻譯的簡(jiǎn)化等。
·空中更新
vcp全球數(shù)據(jù)同步器機(jī)制提供了在車(chē)輛整個(gè)壽命期間在云平臺(tái)、嵌入式平臺(tái)和任何連接的設(shè)備之間更新任何類(lèi)型的“空中”軟件包的方法。內(nèi)部用于在我們的在線(xiàn)和嵌入式解決方案之間同步對(duì)話(huà)、ui、日志、快照,這種“空中”系統(tǒng)可以擴(kuò)展到包含第三方資源作為嵌入式tts語(yǔ)音、嵌入式asr字典?;诎姹鞠到y(tǒng),依賴(lài)管理器和高壓縮數(shù)據(jù)傳輸,為混合解決方案提供了第一流的機(jī)制。
·到任何設(shè)備的服務(wù)連續(xù)性
語(yǔ)音和連接平臺(tái)通過(guò)vcp聯(lián)合服務(wù)能夠提供服務(wù)的連續(xù)性,而不會(huì)中斷驅(qū)動(dòng)程序標(biāo)識(shí)和設(shè)備。由于連接的設(shè)備的增加,由xxxxx虛擬個(gè)人助理可以訪(fǎng)問(wèn)的駕駛員的注意力超過(guò)了在汽車(chē)上花費(fèi)的時(shí)間。
·聲音與聲學(xué)不可知的集成
語(yǔ)音和連接平臺(tái)不依賴(lài)于特定的語(yǔ)音技術(shù),并且可以使用針對(duì)語(yǔ)音識(shí)別和文本到語(yǔ)音的兩者的本地語(yǔ)音引擎或遠(yuǎn)程語(yǔ)音提供程序。本地一類(lèi)封裝在vcp插件中,并且它們可以通過(guò)vcp數(shù)據(jù)同步機(jī)制容易更新。遠(yuǎn)程語(yǔ)音提供商可以使用vcp直接在云端管理。
定義哪個(gè)語(yǔ)音技術(shù)vpa用于語(yǔ)音識(shí)別和文本到語(yǔ)音對(duì)任何對(duì)話(huà)是完全可配置的。
·人工智能算法
專(zhuān)注于獲得約束時(shí)間中的結(jié)果,語(yǔ)音和互聯(lián)平臺(tái)對(duì)ai采用不可知的方法。這就是為什么我們以一種抽象的方式創(chuàng)建或集成第一類(lèi)立即可用的工具到平臺(tái)中,像我們已經(jīng)使用clips引擎基于專(zhuān)家系統(tǒng)處理我們的事件一樣。
我們的專(zhuān)業(yè)知識(shí)保留在自然語(yǔ)言、知識(shí)圖、機(jī)器學(xué)習(xí)、社會(huì)智能和通用ai算法中。我們的工具集是當(dāng)今可用的頂級(jí)框架和開(kāi)源算法之間的鏈接以允許xxxxx連續(xù)地集成這個(gè)科學(xué)領(lǐng)域中最后演變。
·自然語(yǔ)言了解不可知的集成
在與針對(duì)人工智能算法采用的策略相同的方式中,語(yǔ)音與互聯(lián)平臺(tái)采用了不可知的方法以集成自然語(yǔ)言處理模塊。根據(jù)我們?cè)谠擃I(lǐng)域的專(zhuān)業(yè)知識(shí),這允許我們頻繁更新我們的核心模塊之一,以?xún)?yōu)化準(zhǔn)確的理解并保證獨(dú)特的用戶(hù)體驗(yàn)。
技術(shù)架構(gòu)
架構(gòu)
架構(gòu)描述
語(yǔ)音和連接平臺(tái)基于被稱(chēng)為“智能調(diào)度程序”的異步管道。他的責(zé)任是在整個(gè)平臺(tái)和連接的設(shè)備上傳遞消息和用戶(hù)上下文。
vcp聯(lián)合服務(wù)負(fù)責(zé)跨平臺(tái)的用戶(hù)身份管理。它針對(duì)數(shù)字和社會(huì)身份(如我的xxxxx,facebook,twitter,google+和microsoftlive)依賴(lài)于第三方身份提供商。它還擁有內(nèi)部機(jī)制來(lái)聯(lián)合用戶(hù)的所有連接設(shè)備,如他的汽車(chē),手機(jī),平板電腦,電視...
語(yǔ)音和互聯(lián)云平臺(tái)通過(guò)“智能調(diào)度員”提供了不可知模塊架構(gòu),并提供了一個(gè)完整的同步機(jī)制以與vcp嵌入式解決方案工作。vcpserver能夠利用自動(dòng)asr/tts中繼功能來(lái)在功能級(jí)別抽取asr或tts,其依靠第三方asr/tts提供商,諸如nuance,googlevoice,telisma,creawave等。
語(yǔ)音和連接云平臺(tái)還包括由vcp平臺(tái)提供的用于由語(yǔ)義工具授權(quán)的對(duì)話(huà)管理的所有技術(shù)塊。結(jié)合基于專(zhuān)家系統(tǒng)、傳感器、ai和主動(dòng)任務(wù)的事件,這提供了用于開(kāi)發(fā)應(yīng)用程序的核心堆棧。
第三方數(shù)據(jù)提供商通過(guò)用戶(hù)配置文件偏好或xxxxx業(yè)務(wù)規(guī)則以抽象的方式被包含以支持回退場(chǎng)景或基于規(guī)則的選擇。此入口點(diǎn)允許vcp集成所有現(xiàn)有的xxxxx連接的服務(wù),并使其可用于應(yīng)用程序開(kāi)發(fā)級(jí)別。
vcp嵌入式解決方案是vcp服務(wù)器的車(chē)輛計(jì)數(shù)器部分??筛隆翱罩小?,這種嵌入式解決方案提供:
-ui遞送和管理
-板載對(duì)話(huà)管理
-“缺失和恢復(fù)”連接方案的上下文記錄
-用于日志或任何其他第三方同步的快照管理器
在車(chē)輛架構(gòu)中,嵌入式asr和tts提供商可能被包括在板載對(duì)話(huà)管理中,并不被提供為語(yǔ)音和連接平臺(tái)的部件。
vcp數(shù)據(jù)存儲(chǔ)是apachehadoop,其基于用于存儲(chǔ)和分析語(yǔ)音和連接平臺(tái)的所有數(shù)據(jù)輸入的基礎(chǔ)設(shè)施。用于機(jī)器學(xué)習(xí)或人工智能處理,vcp數(shù)據(jù)存儲(chǔ)提供機(jī)制以將分析結(jié)果注入到vcp聯(lián)合服務(wù)中存儲(chǔ)的用戶(hù)配置文件中的。
按領(lǐng)域的技術(shù)細(xì)節(jié)
聲音與聲學(xué)
·說(shuō)明
聲音和聲學(xué)生命周期是最重要的交互之一以創(chuàng)建一流用戶(hù)體驗(yàn)。這需要采用高水平的關(guān)注和高水平的組件來(lái)達(dá)到預(yù)期的質(zhì)量。
獲得預(yù)期的質(zhì)量可以通過(guò)組合多個(gè)方面來(lái)實(shí)現(xiàn):
o麥克風(fēng)的頂級(jí)質(zhì)量,濾波器,降噪,回波消除...
o多個(gè)asr/tts提供商的集成(nuance,google,telisma,microsoftspeechserver...)
o在這些提供商之間關(guān)于用例切換的能力:
-asr:板載,非板載流或非板載中繼
-tts:板載,非板載,情感內(nèi)容,混合連續(xù)模式
o基于用戶(hù)對(duì)話(huà)上下文的asr校正管理
o“真對(duì)話(huà)”管理
在xbrainsoft,我們將這些方面分為兩類(lèi):
o從語(yǔ)音捕獲到asr進(jìn)程結(jié)束
o在asr進(jìn)程之后,通過(guò)自然語(yǔ)言處理到自然語(yǔ)言理解
作為asr提供商或硬件麥克風(fēng)制造不在我們的業(yè)務(wù)范圍內(nèi),我們采用了技術(shù)上不可知的語(yǔ)音管理方法,能夠與任何類(lèi)型的asr/tts引擎集成和通信。我們的經(jīng)驗(yàn)和項(xiàng)目使我們?cè)谙拗骗h(huán)境中獲得了這些技術(shù)的高水平的專(zhuān)業(yè)知識(shí),如在使用nuance材料集成的vpa原型中做的一樣。
這種類(lèi)型的架構(gòu)允許我們的合作伙伴在具有所有類(lèi)型的asr或tts的許多語(yǔ)言中快速創(chuàng)建強(qiáng)大的對(duì)話(huà)方案。這也允許容易地升級(jí)任何組件以改善用戶(hù)體驗(yàn)。
第二類(lèi)是基于用戶(hù)對(duì)話(huà)上下文通過(guò)不同級(jí)別的軟件過(guò)濾器來(lái)管理的。作為對(duì)話(huà)不僅僅是雙向句子和雙向句子集合,我們?cè)谡Z(yǔ)音和互聯(lián)平臺(tái)上開(kāi)發(fā)了基于“真實(shí)上下文對(duì)話(huà)理解”的不同過(guò)濾器。真實(shí)的上下文對(duì)話(huà)框理解是具有以下參數(shù)的上下文和多維對(duì)話(huà)流:上下文歷史、對(duì)話(huà)歷史、用戶(hù)歷史、本地化、當(dāng)前上下文域等。
利用我們的vcp語(yǔ)義工具的授權(quán),我們實(shí)現(xiàn)了對(duì)用戶(hù)輸入的深刻語(yǔ)義理解。
這種方法允許我們能夠?qū)ⅰ靶侣勁c語(yǔ)音搜索”應(yīng)用程序(新聞廣播員)從120萬(wàn)個(gè)語(yǔ)言模式入口點(diǎn)減少到100個(gè),同時(shí)保持依據(jù)終端用戶(hù)對(duì)話(huà)流相同的確切含義。
這種模式的描述的新方法帶來(lái)許多積極的方面:
o簡(jiǎn)化消歧場(chǎng)景,錯(cuò)誤關(guān)鍵字或不完整的實(shí)體提取
o簡(jiǎn)化模式的調(diào)試,并允許創(chuàng)建自動(dòng)化工具
o簡(jiǎn)化“飛行”模式的校正和維護(hù)
o最小化內(nèi)存資源以加載模式字典
o最小化針對(duì)語(yǔ)言適配的任何對(duì)話(huà)翻譯的努力
完整的混合和“空中”可更新系統(tǒng),vcp組件“在線(xiàn)或嵌入式對(duì)話(huà)管理器”旨在提供最佳的解決方案來(lái)管理嵌入式對(duì)話(huà),當(dāng)車(chē)輛失去連接到完整的在線(xiàn)對(duì)話(huà)體驗(yàn)時(shí)。
因此,要求第一類(lèi)材料,語(yǔ)音和互聯(lián)平臺(tái)保證最有效地創(chuàng)造曾經(jīng)預(yù)期的最好的用戶(hù)體驗(yàn)。
同時(shí),xbrainsoft繼續(xù)推動(dòng)用戶(hù)體驗(yàn)界限與許多研究方面的添加,如對(duì)話(huà)流程中的情感分析,來(lái)自社會(huì)和對(duì)話(huà)流在推測(cè)的用戶(hù)上下文中的社會(huì)與教育行為水平或基于voicexml標(biāo)準(zhǔn)的韻律管理。
·創(chuàng)新特征
oasr/tts提供商的不可知方法
o非板載asr/tts中繼容量
o板載對(duì)話(huà)管理
o非板載對(duì)話(huà)管理
o混合對(duì)話(huà)管理與“空中”更新
ovcp語(yǔ)義工具
o用于對(duì)話(huà)管理的集成開(kāi)發(fā)環(huán)境
·示例元素
o高品質(zhì)麥克風(fēng)和聲音攝取
o聲音信號(hào)處理,包括降噪,回波消除
o麥克風(fēng)音頻api支持自動(dòng)空白檢測(cè)
o一個(gè)或多個(gè)用于板載和非板載的語(yǔ)音識(shí)別引擎
o一個(gè)或多個(gè)用于板載和非板載的文本到語(yǔ)音引擎的
ovcp嵌入式解決方案
ovcp服務(wù)器
·示例相關(guān)合作伙伴
聲音攝入量:parrott或nuance
聲信號(hào)處理:parrott或nuance
asr:google,nuance或telisma
tts:nuance,telisma或creawave
混合結(jié)構(gòu)與行為
·說(shuō)明
連接r和基于云的個(gè)人助理,當(dāng)沒(méi)有數(shù)據(jù)連接可用時(shí),其可以是自主的。目的是能夠始終為用戶(hù)帶來(lái)快速和準(zhǔn)確的答案。
vcp嵌入式解決方案由在諸如汽車(chē)的嵌入式設(shè)備上運(yùn)行并被連接到服務(wù)器端對(duì)應(yīng)部分上的混合助理組成。任何用戶(hù)請(qǐng)求由嵌入式助理直接處理,嵌入式助理根據(jù)諸如連接性的標(biāo)準(zhǔn)決定是否將其轉(zhuǎn)發(fā)到服務(wù)器。這樣,所有用戶(hù)請(qǐng)求可以在本地或遠(yuǎn)程處理??梢暂p松調(diào)整非板載的功能以提高性能和用戶(hù)體驗(yàn)。像語(yǔ)音和連接平臺(tái)一樣,vcp嵌入式解決方案提供了高級(jí)的自然語(yǔ)言處理和理解功能以可以無(wú)需數(shù)據(jù)連接來(lái)處理用戶(hù)請(qǐng)求。這樣可以確保vpa能夠快速理解本地任何用戶(hù)請(qǐng)求中,并且如果需要,能夠直接回答用戶(hù),并異步地從服務(wù)器獲取較大的計(jì)算響應(yīng)。在缺乏連接的情況下,如果需要外部數(shù)據(jù)來(lái)完全回答用戶(hù)(例如,天氣請(qǐng)求),則該響應(yīng)適于通知用戶(hù)他的請(qǐng)求不能被實(shí)現(xiàn)。根據(jù)場(chǎng)景,vpa能夠?qū)τ脩?hù)請(qǐng)求進(jìn)行排隊(duì),以便在連接恢復(fù)后立即將其轉(zhuǎn)發(fā)到服務(wù)器。
語(yǔ)音和連接平臺(tái)還提供嵌入式代理和服務(wù)器之間的完整上下文同步,以便數(shù)據(jù)在它們之間共享,而不是分離。每次發(fā)生連接問(wèn)題時(shí)都會(huì)執(zhí)行重新同步,以確保數(shù)據(jù)始終是最新的。
vcp嵌入式解決方案由插件組成,其可以通過(guò)“空中”過(guò)程容易更新或更換。語(yǔ)音、ia、對(duì)話(huà)理解、數(shù)據(jù)處理和用戶(hù)接口是這些可升級(jí)模塊的一部分。
vcp嵌入式解決方案還由腳本集合、ai的一部分組成以處理響應(yīng)。為了確保響應(yīng)的一致性,無(wú)論連接級(jí)別如何,這些腳本在服務(wù)器和嵌入式代理之間被同步。
·創(chuàng)新功能
o用戶(hù)界面管理器
o與服務(wù)器同步的本地接口
o嵌入式對(duì)話(huà)管理器
-純嵌入式場(chǎng)景
-混合場(chǎng)景板載/非板載
-純非板載方案
始終使用或不使用互聯(lián)網(wǎng)連接來(lái)回答用戶(hù)請(qǐng)求
連接缺失用例的上下文同步
·示例元素
linux平臺(tái)可用在汽車(chē)電腦系統(tǒng)上。
·性能
高效的性能驅(qū)動(dòng)編程語(yǔ)言(c++)
交換數(shù)據(jù)的高壓縮以?xún)?yōu)化帶寬和響應(yīng)時(shí)間
vcp嵌入式解決方案已經(jīng)在raspberrypi型號(hào)a上被編譯和測(cè)試:
ocpu:700mhz低功耗arm1176jz-f應(yīng)用處理器
oram:256mbsdram
人工智能
·說(shuō)明
人工智能是一個(gè)覆蓋很多學(xué)科的大型領(lǐng)域,如:
o扣除,推理,問(wèn)題解決
o知識(shí)圖發(fā)現(xiàn)
o通過(guò)以事件為基礎(chǔ)的專(zhuān)家系統(tǒng)的規(guī)劃和行動(dòng)
o自然語(yǔ)言處理和語(yǔ)義搜索
o機(jī)器學(xué)習(xí),地圖縮減,深度學(xué)習(xí)
o社會(huì)情報(bào),情緒分析,社會(huì)行為
o其他尚未發(fā)現(xiàn)的用途
在xbrainsoft意識(shí)到巨大的能力范圍,并在當(dāng)前科學(xué)狀態(tài)的挑戰(zhàn)面前保持謙虛。
專(zhuān)注于獲得約束時(shí)間內(nèi)的結(jié)果,語(yǔ)音和互聯(lián)平臺(tái)采用關(guān)于ai的不可知的方法。這就是為什么我們以抽象的方式將一流的立即可用的工具創(chuàng)建或集成到平臺(tái)中,就像我們利用使用立即可用的clips引擎的我們的基于事件的專(zhuān)家系統(tǒng)做的一樣。
我們的專(zhuān)業(yè)知識(shí)保留在自然語(yǔ)言、知識(shí)圖、機(jī)器學(xué)習(xí)、社會(huì)智能和通用ai算法中。
我們的工具集的主要特征就是當(dāng)今可用的頂級(jí)框架和開(kāi)源算法之間的粘合。
因此,xbrainsoft可以提供vpa項(xiàng)目的預(yù)期場(chǎng)景的100%,因?yàn)榭梢酝ㄟ^(guò)市場(chǎng)上可用的任何其他更有價(jià)值的模塊來(lái)切換模塊。
這就是為什么xbrainsoft還與像kyron(硅谷,ai,應(yīng)用于醫(yī)療保健的大數(shù)據(jù)和機(jī)器學(xué)習(xí))、visteon或spirops等合作伙伴合作以通過(guò)我們的平臺(tái)來(lái)擴(kuò)展ai的可能性。
·創(chuàng)新特征
以匿名方式向外部ai模塊提供數(shù)據(jù)的能力。用戶(hù)或會(huì)話(huà)表示為隨機(jī)唯一號(hào)碼,因此外部系統(tǒng)可以在正確的級(jí)別工作,而不能將該信息與物理用戶(hù)相關(guān)聯(lián)
使用xbrainsoft或外部ai工具將ai嵌入語(yǔ)音和連接平臺(tái)(vcp)中的不可知方法
橋接到由vcp提供的vcp聯(lián)盟服務(wù),以從ai工具取回?cái)?shù)據(jù),并增強(qiáng)用于更好的用戶(hù)上下文管理的用戶(hù)配置文件以。
·示例元素
o基于apachehadoop的vcp數(shù)據(jù)存儲(chǔ)
o基于vcp事件的專(zhuān)家系統(tǒng)
ovcp聯(lián)合服務(wù)
非板載平臺(tái)與服務(wù)
·說(shuō)明
為了豐富提供給汽車(chē)中用戶(hù)的服務(wù),非板載平臺(tái)由于其高可用性和強(qiáng)大的組件帶來(lái)了高水平的連接功能。用戶(hù)被設(shè)置在在專(zhuān)注于汽車(chē)服務(wù)的多學(xué)科智能生態(tài)系統(tǒng)的中心。非板載平臺(tái)也是帶來(lái)混合汽車(chē)和連接服務(wù)的功能的進(jìn)入點(diǎn)。
非板載平臺(tái)具有高可用性以支持品牌的所有車(chē)輛和用戶(hù)的連接設(shè)備。它能夠隨時(shí)間發(fā)展,以處理越來(lái)越多的用戶(hù),并處理負(fù)載波動(dòng)。
為了應(yīng)對(duì)所有這些挑戰(zhàn),“語(yǔ)音和互聯(lián)平臺(tái)”提供了一個(gè)集群架構(gòu),其可以部署在“云端”或內(nèi)部部署中。所有群集節(jié)點(diǎn)彼此了解,其使得跨節(jié)點(diǎn)連接的設(shè)備場(chǎng)景能夠通過(guò)集群架構(gòu)維護(hù)服務(wù)連續(xù)性。
語(yǔ)音和連接平臺(tái)通過(guò)其社交帳戶(hù)和設(shè)備從技術(shù)數(shù)據(jù)服務(wù)到用戶(hù)信息提供消費(fèi)第三種數(shù)據(jù)服務(wù)的能力。所有這些信息對(duì)于創(chuàng)建“相關(guān)”和智能場(chǎng)景是有用的。
功能和服務(wù)的范圍廣泛,并且由于技術(shù)進(jìn)步將隨著時(shí)間演變。該平臺(tái)的架構(gòu)應(yīng)提供新的服務(wù)/功能,而不會(huì)影響基于其模塊化架構(gòu)的現(xiàn)有功能。
·創(chuàng)新特征
o在云端或內(nèi)部部署托管
o針對(duì)高可用性和負(fù)載波動(dòng)準(zhǔn)備去集群架構(gòu)部署,
o集群架構(gòu)上的設(shè)備到設(shè)備功能
·示例元素
ovcp服務(wù)器
o第三方數(shù)據(jù)提供商
·性能
每個(gè)服務(wù)器有5k個(gè)并發(fā)連接對(duì)象(汽車(chē)),該原型實(shí)現(xiàn)了3臺(tái)服務(wù)器的集合以保證高水平的sla,并將在前面提出10k并發(fā)連接對(duì)象。
非板載架構(gòu)和一般安全
·說(shuō)明
作為第三方數(shù)據(jù)服務(wù)提供商,除了我們當(dāng)前實(shí)施的提供商之外,xxxxxsig可以被語(yǔ)音和互聯(lián)平臺(tái)使用。由于抽象的高水平,我們可以實(shí)現(xiàn)不同的第三方數(shù)據(jù)服務(wù)提供商,并在項(xiàng)目生命周期中集成他們而無(wú)需更新vpa的功能部分。
語(yǔ)音和互聯(lián)平臺(tái)提供了設(shè)施以實(shí)施后備場(chǎng)景以確保通過(guò)外部提供商數(shù)據(jù)的高可用性。例如,多個(gè)天氣數(shù)據(jù)提供商在主要的提供商不可用時(shí)以便切換。
語(yǔ)音和互聯(lián)平臺(tái)還提供針對(duì)提供商資格的他的專(zhuān)家系統(tǒng)的實(shí)現(xiàn)提供商?;跇I(yè)務(wù)規(guī)則,系統(tǒng)有助于管理計(jì)費(fèi)優(yōu)化??梢栽诓煌?jí)別被用作為基于訂購(gòu)費(fèi)的用戶(hù)專(zhuān)家系統(tǒng)和或基于供應(yīng)商交易合同的平臺(tái)專(zhuān)家系統(tǒng)。
由于語(yǔ)音和連接平臺(tái)可以暴露出完整的httpapi集合,因此可以容易地集成到任何類(lèi)型的機(jī)器到機(jī)器網(wǎng)絡(luò)中。
在通信和認(rèn)證方面,語(yǔ)音和互聯(lián)平臺(tái)提供了互聯(lián)網(wǎng)行業(yè)中最先進(jìn)的實(shí)踐。從確保與ssl證書(shū)的所有通信的安全到挑戰(zhàn)握手驗(yàn)證協(xié)議,語(yǔ)音和連接平臺(tái)確保了與終端用戶(hù)隱私相關(guān)的高安全級(jí)別。
在vcp聯(lián)合服務(wù)身份協(xié)會(huì)中也會(huì)考慮到安全和用戶(hù)隱私,因?yàn)榻K端用戶(hù)登錄和密碼從未通過(guò)語(yǔ)音和已連接平臺(tái)進(jìn)行傳輸。所有這個(gè)系統(tǒng)是基于身份提供商提供的基于令牌的驗(yàn)證,例如:對(duì)于facebook帳戶(hù),終端用戶(hù)在facebook服務(wù)器上進(jìn)行驗(yàn)證,服務(wù)器確認(rèn)終端用戶(hù)身份并向我們返回驗(yàn)證令牌。
構(gòu)建vcp嵌入式解決方案的方式可防止汽車(chē)中的可靠性或安全問(wèn)題,因?yàn)樗蕾?lài)于集成商提供的基礎(chǔ)現(xiàn)有功能。在我們的技術(shù)方案中,vpa不能直接向汽車(chē)發(fā)出命令,但是他可以向提供可靠性和安全性問(wèn)題的底層系統(tǒng)發(fā)送命令。
·創(chuàng)新功能
o模塊化架構(gòu),啟動(dòng)xxxxx連接的服務(wù)api的完全集成
o我的xxxxx可以被實(shí)現(xiàn)為vcp聯(lián)合服務(wù)的的默認(rèn)身份提供商商,其幫助用戶(hù)當(dāng)鏈接他的社交身份時(shí)感到安全
o高級(jí)安全性,以保護(hù)終端用戶(hù)的隱私
·示例元素
o作為m2m網(wǎng)絡(luò)的用于汽車(chē)連接的安全基礎(chǔ)設(shè)施
o基于令牌的認(rèn)證api來(lái)實(shí)現(xiàn)vcp聯(lián)合標(biāo)識(shí)驗(yàn)證服務(wù)身份提供商商
上下文與歷史意識(shí)
·說(shuō)明
有效的上下文管理對(duì)對(duì)話(huà),助理行為或功能個(gè)性化至關(guān)重要。在引擎級(jí)別的實(shí)現(xiàn),用戶(hù)環(huán)境可以由語(yǔ)音和連接平臺(tái)的任何部件訪(fǎng)問(wèn),以使得能夠增強(qiáng)的個(gè)性化體驗(yàn)。
可擴(kuò)展的任何數(shù)據(jù)來(lái)源-作為車(chē)輛數(shù)據(jù)(can,gps...)、社會(huì)配置文件、外部系統(tǒng)(天氣、流量...)、用戶(hù)交互...-用戶(hù)上下文也被我們的基于事件的專(zhuān)家系統(tǒng)大量使用以創(chuàng)建主動(dòng)使用案例。
語(yǔ)音和互聯(lián)平臺(tái)在板載和非板載之間共享,并負(fù)責(zé)兩種環(huán)境之間的上下文重新同步。
關(guān)于歷史意識(shí),語(yǔ)音和連接平臺(tái)為聚合、存儲(chǔ)和分析數(shù)據(jù)提供了一個(gè)完整的解決方案。這些數(shù)據(jù)可以來(lái)自如上所述的任何來(lái)源。
當(dāng)被分析時(shí),數(shù)據(jù)結(jié)果用于豐富用戶(hù)簡(jiǎn)檔以幫助遞送個(gè)性化的體驗(yàn)。
·創(chuàng)新特征
集成為引擎特征,用戶(hù)上下文管理在語(yǔ)音和連接平臺(tái)中是橫向的。它可以在系統(tǒng)中的任何模塊、對(duì)話(huà)、任務(wù)或規(guī)則中被訪(fǎng)問(wèn)。它也可以在具有vcp聯(lián)合服務(wù)的實(shí)現(xiàn)的設(shè)備上被共享。
語(yǔ)音和連接平臺(tái)在板載和非板載之間提供完整的上下文重新同步系統(tǒng)以處理連接問(wèn)題,如駕駛通過(guò)隧道。
基于apachehadoop堆棧和工具,vcp數(shù)據(jù)存儲(chǔ)提供基礎(chǔ)設(shè)施以準(zhǔn)備執(zhí)行機(jī)器學(xué)習(xí)目標(biāo)作為用戶(hù)行為主義、習(xí)慣學(xué)習(xí)和任何其他相關(guān)的機(jī)器學(xué)習(xí)分類(lèi)或推薦任務(wù)。
·示例元素
ovcp數(shù)據(jù)存儲(chǔ)
o基于要求定義hadoop基礎(chǔ)設(shè)施
主動(dòng)性
·說(shuō)明
主動(dòng)性是為終端用戶(hù)創(chuàng)建更智能的應(yīng)用程序的關(guān)鍵之一。
vc平臺(tái)提供兩個(gè)不同層次的主動(dòng)管理:
o后臺(tái)工作者:一個(gè)完整的后臺(tái)任務(wù)系統(tǒng),其可以重新連接到主流程線(xiàn)并與用戶(hù)會(huì)話(huà)交互或使用回退通知工具
o基于事件的專(zhuān)家系統(tǒng):完全集成的業(yè)務(wù)規(guī)則引擎,其可以對(duì)外部傳感器和用戶(hù)上下文做出反應(yīng)
結(jié)合vcp聯(lián)合服務(wù),它利用超越設(shè)備的主動(dòng)權(quán)力。
·創(chuàng)新特征
o基于事件的專(zhuān)家系統(tǒng),其主動(dòng)對(duì)實(shí)時(shí)的上下文項(xiàng)目做出反應(yīng)
o使用vcp聯(lián)合服務(wù)來(lái)啟用跨設(shè)備主動(dòng)體驗(yàn)
o針對(duì)主動(dòng)回退用例(google,apple,microsoft...)提供主要的通知提供商的實(shí)現(xiàn)
o在功能觀(guān)點(diǎn)上,主動(dòng)調(diào)整的級(jí)別可以作為用戶(hù)設(shè)置來(lái)顯示
·示例元素
用于設(shè)備知識(shí)的vcp聯(lián)合服務(wù)
支持回退用例的通知過(guò)程的設(shè)備
一般升級(jí)能力
·說(shuō)明
總體可升級(jí)性是磁于汽車(chē)行業(yè)的關(guān)鍵過(guò)程。由于汽車(chē)不會(huì)經(jīng)常去汽車(chē)經(jīng)銷(xiāo)商那里,整體解決方案應(yīng)提供“空中”更新的完整機(jī)制。
語(yǔ)音和互聯(lián)平臺(tái)已經(jīng)利用他的vcp嵌入式解決方案實(shí)現(xiàn)這些“空中”的機(jī)制來(lái)同步對(duì)話(huà)和用戶(hù)界面。
基于工廠(chǎng)架構(gòu),這種“空中”過(guò)程可以擴(kuò)展到管理語(yǔ)音和連接平臺(tái)與連接設(shè)備之間的任何類(lèi)型的數(shù)據(jù)。
·創(chuàng)新特征
o可擴(kuò)展的“空中”機(jī)制,包括版本支持、依賴(lài)解析和通信壓縮
ovcp服務(wù)器基于模塊化架構(gòu),其允許在車(chē)輛生命期間添加或移除(新)模塊。
ovcp嵌入式解決方案基于插件架構(gòu),其允許添加新的互操作功能來(lái)訪(fǎng)問(wèn)新的汽車(chē)功能或消息
·示例元素
o互聯(lián)網(wǎng)連接(取決于硬件和連接類(lèi)型)
進(jìn)出連續(xù)性
·說(shuō)明
設(shè)備連續(xù)性意味著通過(guò)語(yǔ)音和連接平臺(tái),驅(qū)動(dòng)程序可以連接到汽車(chē)中的虛擬個(gè)人助理,也可以車(chē)外連接到街道或家中的虛擬個(gè)人助理。他可以使用來(lái)自他想要的地方的服務(wù)。
該功能允許xxxxx擴(kuò)展其與客戶(hù)進(jìn)出汽車(chē)的關(guān)系的范圍。該品牌擴(kuò)大了機(jī)會(huì)以提供服務(wù)的并在其傳統(tǒng)區(qū)域之外產(chǎn)生參與。因此,它利用提供有競(jìng)爭(zhēng)力的api或服務(wù)的第三方運(yùn)營(yíng)商為大量的潛在業(yè)務(wù)合作伙伴打開(kāi)空間。
基于vcp聯(lián)合服務(wù),vpa可以完全集成到終端用戶(hù)生態(tài)系統(tǒng)中。從他的車(chē),他的許多設(shè)備到他的數(shù)字和社會(huì)身份,生態(tài)系統(tǒng)的所有投入可能授權(quán)他的普遍的體驗(yàn)。
·創(chuàng)新功能
語(yǔ)音和連接平臺(tái)通過(guò)標(biāo)準(zhǔn)安全協(xié)議(https)提供其服務(wù),其能夠從所有識(shí)別的設(shè)備被訪(fǎng)問(wèn)。作為端到端的觀(guān)點(diǎn),語(yǔ)音和互聯(lián)平臺(tái)為所有主要設(shè)備平臺(tái)(如android,ios,windows+windowsphone和embedded等)提供框架和工具。
vcp聯(lián)合服務(wù)匯總用戶(hù)的設(shè)備和數(shù)字身份,以為他提供最好的連接和普遍的體驗(yàn)。例如,vcp可以在用戶(hù)手機(jī)上啟動(dòng)一個(gè)場(chǎng)景,然后在他的車(chē)?yán)锪硪粋€(gè)設(shè)備上結(jié)束它。
vcp用戶(hù)界面管理器能夠在提供web瀏覽器api的任何設(shè)備上下載、存儲(chǔ)和執(zhí)行vcpweb對(duì)象??紤]到這一點(diǎn),連接設(shè)備上的用戶(hù)界面和應(yīng)用程序的邏輯可以是跨平臺(tái)的,并且容易“空中”更新。vcp用戶(hù)界面管理器還能夠?yàn)樘囟ㄆ脚_(tái)、區(qū)域或語(yǔ)言應(yīng)用不同的模板/邏輯。
·示例元素
vcp聯(lián)合服務(wù)是在服務(wù)連續(xù)性的中心。
由于連接設(shè)備(平臺(tái)、大小、硬件、使用...)的非均勻性,應(yīng)適應(yīng)場(chǎng)景以最適合目標(biāo)設(shè)備。例如,設(shè)備可能沒(méi)有麥克風(fēng),其不兼容聲樂(lè)用戶(hù)界面,應(yīng)該使用物理交互。
文化和地理上下文
·說(shuō)明
由于xxxxx的高國(guó)際化程度,vpa能夠以文化或地理的觀(guān)點(diǎn)適應(yīng)用戶(hù)。這意味著提供給用戶(hù)的所有腳本和接口的翻譯,asr和tts提供商的配置以及需要時(shí)一些場(chǎng)景的行為的修改。
·創(chuàng)新功能
基于完整的模塊化架構(gòu),可以根據(jù)國(guó)際化設(shè)置插入語(yǔ)音和連接平臺(tái)模塊。這允許根據(jù)該地區(qū)管理不同的服務(wù)遞送或特征。
語(yǔ)音和連接平臺(tái)提供了可以基于區(qū)域部署或用戶(hù)設(shè)置的asr/tts提供商中繼的完整抽象。這允許針對(duì)汽車(chē)或連接的設(shè)備的用于語(yǔ)音識(shí)別和語(yǔ)音合成的統(tǒng)一入口點(diǎn),汽車(chē)或連接設(shè)備負(fù)責(zé)語(yǔ)音獲取/播放和asr/tts提供商之間的關(guān)注的分離。
vcp對(duì)話(huà)管理器和vcp語(yǔ)義工具提供了高水平的允許新語(yǔ)言的可擴(kuò)展性而不影響功能實(shí)現(xiàn)的提取。
·示例元素
o支持通過(guò)api翻譯的外部第三方數(shù)據(jù)提供商
o所選語(yǔ)言的asr/tts提供商
o定義vcp聯(lián)盟服務(wù)的終端用戶(hù)社會(huì)身份,例如:中國(guó)的微博而不是twitter
o適應(yīng)用例和vpa行為到終端用戶(hù)文化和區(qū)域
附錄d:“直接與工作繞行場(chǎng)景過(guò)程”
描述的是一種通用的方法,我們將根據(jù)各種實(shí)施例找到關(guān)于其它產(chǎn)品如siri、googlenow、nuance、...或其他產(chǎn)品的我們的附加價(jià)值。
圖例:
·vcp=語(yǔ)音和連接平臺(tái)
·asr=自動(dòng)語(yǔ)音識(shí)別
·tts=文本到語(yǔ)音
·tui=觸摸用戶(hù)交互
·vui=語(yǔ)音用戶(hù)交互
·nlu=自然語(yǔ)言理解
vcp是同步和異步。這意味著每個(gè)動(dòng)作、事件可以直接執(zhí)行,也可以在用戶(hù)請(qǐng)求之后長(zhǎng)時(shí)間執(zhí)行。我可以要求代理針對(duì)長(zhǎng)的任務(wù)或長(zhǎng)期任務(wù)每個(gè)月第一天(異步)發(fā)送給我我的銷(xiāo)售報(bào)告。以及我可以問(wèn)今天的天氣,并且直接地在回答明天的天氣之后(用直接上下文)。
生命周期的描述(參見(jiàn)圖7)從左下角開(kāi)始到右上方。
生命周期
asr引擎:
·在asr(自動(dòng)語(yǔ)音識(shí)別)之前,我們可以從3種方式激活asr:
oasr自動(dòng)喚醒字:可使用任何關(guān)鍵字來(lái)喚醒應(yīng)用程序并啟動(dòng)asr(如:angie,sam,ada,...)
oasr主動(dòng)激活:取決于內(nèi)部或外部事件
·定時(shí)器:每天都會(huì)根據(jù)計(jì)時(shí)器自動(dòng)喚醒
·內(nèi)部事件:來(lái)自設(shè)備部件(gps、加速器、...)或應(yīng)用程序的任何功能或模塊的任何內(nèi)部事件。
·我們檢測(cè)到你位于你的家中,我們可以啟動(dòng)asr(帶有上下文提示的tts)作為你的東西
·當(dāng)我坐在我的車(chē)?yán)?因?yàn)槲覚z測(cè)到電源和obd),我可以建議你啟動(dòng)音樂(lè)并開(kāi)始導(dǎo)航
·當(dāng)你在日歷中有新的約會(huì)時(shí),代理可以自動(dòng)啟動(dòng),并詢(xún)問(wèn)你是否想要導(dǎo)航以去你的下一次會(huì)議(如果需要車(chē)輛)
·外部事件:我們從數(shù)據(jù)庫(kù)或第三方api檢測(cè)任何外部事件以激活asr/tts
·當(dāng)你到達(dá)目的地附近時(shí),系統(tǒng)可以查看外部的停車(chē)位可用性api以讓你知道何時(shí)你能夠停車(chē)。
·當(dāng)你處于堵車(chē)狀態(tài)時(shí),系統(tǒng)可以通過(guò)汽車(chē)評(píng)估重定向,而且還有機(jī)會(huì)改變你如何去你的目的地,以及建議你停放汽車(chē)并乘坐火車(chē)。
oasr按鈕:通過(guò)虛擬按鈕(屏幕)或物理按鈕(從托架或滾輪按鈕)上的簡(jiǎn)單點(diǎn)擊(推動(dòng))激活代理程序
·asr的激活(語(yǔ)音輸入)
·asr到nlu預(yù)處理=基于應(yīng)用程序的上下文,我們可以采取句子(帶著它的置信),然后在發(fā)送到自然語(yǔ)言理解引擎之前重做它
o因?yàn)槲覀冎牢覀冊(cè)谝粋€(gè)模塊上下文中進(jìn)行呼叫,所以在發(fā)送給nlu引擎之前我們可以在一個(gè)句子中找出或改變?nèi)魏螁卧~。
o用法語(yǔ),當(dāng)用戶(hù)說(shuō):
·“donne-moil'信息技術(shù)”=>asr可以發(fā)送給我們“benoitlaformationtechnologique”(完全在用戶(hù)意圖之外)
·我們可以修訂單詞:‘benoit’用‘donne-moi’以及‘formation’用‘information’。
·在預(yù)處理之后,句子將完全擴(kuò)展其機(jī)會(huì)以通過(guò)nlu被理解并為用戶(hù)創(chuàng)建動(dòng)作。
nlu引擎:
·用戶(hù)的意圖的檢測(cè)啟動(dòng)特定模塊,每個(gè)檢測(cè)在應(yīng)用程序的上下文中工作,如下面的下一章解釋的。
o樣本
·呼叫g(shù)regory=手機(jī)模塊
·發(fā)送文本到bastien=消息模塊
o關(guān)鍵字=直接在模塊中訪(fǎng)問(wèn)的關(guān)鍵字
·電話(huà)=允許訪(fǎng)問(wèn)電話(huà)
·導(dǎo)航=允許訪(fǎng)問(wèn)導(dǎo)航
o快捷方式=是用戶(hù)可以從應(yīng)用程序中的任何位置說(shuō)的句子,僅用于模式中列出的主要?jiǎng)幼鳌?/p>
·從模塊(意圖)中檢測(cè)動(dòng)作(功能)
o樣本
·撥打電話(huà)=撥打電話(huà)給gregoryrenard的動(dòng)作
·這句話(huà)允許檢測(cè)模塊、動(dòng)作和實(shí)體(person=gregoryrenard)
·默認(rèn)模塊列表=因?yàn)?,我們精確地知道應(yīng)用程序可以做什么和不做什么,我們可以檢測(cè)到用戶(hù)正在嘗試執(zhí)行應(yīng)用程序不能做的某些事情,或者我們可能從asr收到不良回復(fù)。在這種情況下,我們可以激活默認(rèn)模塊來(lái)嘗試檢測(cè)用戶(hù)意圖的感知(通常其中siri和googlenow將用戶(hù)推送到網(wǎng)絡(luò)搜索中)。
o向應(yīng)用程序可用模塊的列表的用戶(hù)提出提議(不限于,我們可以從任何類(lèi)型的應(yīng)用程序擴(kuò)展模塊列表)
o如果用戶(hù)再次說(shuō)錯(cuò)某些事情或如果語(yǔ)音識(shí)別不起作用=系統(tǒng)建議從句子語(yǔ)音識(shí)別切換到數(shù)字識(shí)別
·用戶(hù)說(shuō)系統(tǒng)無(wú)法識(shí)別的某些事情,系統(tǒng)會(huì)說(shuō)=“你想要啟動(dòng)什么應(yīng)用程序”+打開(kāi)應(yīng)用程序列表
·如果用戶(hù)再次谫系統(tǒng)無(wú)法識(shí)別的內(nèi)容,系統(tǒng)會(huì)說(shuō)=“你想要的應(yīng)用程序的號(hào)碼是多少”(我們?nèi)魏晤?lèi)型的列表中使用該工作流,作為聯(lián)系人、地址、專(zhuān)輯、藝術(shù)家、新聞?lì)悇e、消息)
o用戶(hù)做出選擇
·系統(tǒng)示出模塊的默認(rèn)項(xiàng)目列表,并建議(通過(guò)語(yǔ)音和/或視覺(jué))模塊中可用的功能。在這種情況下,用戶(hù)可以利用指導(dǎo)做出選擇以實(shí)現(xiàn)。
o列表可以是:
·過(guò)濾器:呼叫malvoisin=>celine上的過(guò)濾器=示出聯(lián)系人列表中的celinemalvoisin列表
·按字母過(guò)濾:基于任何列表,你可以在字母后創(chuàng)建過(guò)濾字母
·用戶(hù)可以說(shuō):過(guò)濾字母m,字母a,字母l,...(這允許訪(fǎng)問(wèn)不可發(fā)音的聯(lián)系人。
·過(guò)濾器通過(guò)字母過(guò)濾項(xiàng)目標(biāo)簽中的任何單詞。
·按字母導(dǎo)航過(guò)濾:根據(jù)任何列表,用戶(hù)可以說(shuō)“去字母v”
·代理將直接顯示以字母v開(kāi)始的所有聯(lián)系人
·導(dǎo)航:用戶(hù)可以能導(dǎo)航列表作為
·下一個(gè)/前一個(gè)=示出當(dāng)前列表中項(xiàng)目的的下一個(gè)或上一個(gè)列表
·開(kāi)始=示出列表中的第一個(gè)項(xiàng)目
·結(jié)束=顯示列表中的最后一個(gè)項(xiàng)目
o列表能夠隨時(shí)被讀?。?/p>
·在任何項(xiàng)目列表屏幕中,用戶(hù)可以要求讀取列表
·列表將被讀取為如下所示
·每個(gè)項(xiàng)目都被讀取并按照號(hào)碼跟隨,以幫助用戶(hù)記住項(xiàng)目號(hào)碼
·如果以前的項(xiàng)目聯(lián)系人沒(méi)有集成我們已經(jīng)知道的部分,每個(gè)項(xiàng)目的內(nèi)容將被讀取。
·想象我們有5個(gè)聯(lián)系人malvoisin在電話(huà)號(hào)碼列表(3個(gè)不同類(lèi)型的電話(huà)針以celine,1個(gè)針對(duì)luc和1針對(duì)gregoire)
·代理會(huì)說(shuō):(當(dāng)代理在發(fā)言時(shí)我們不要重復(fù)任何內(nèi)容)
·celine,mobileus是1號(hào)(沒(méi)有malvoisin,因?yàn)檫@是我的要求,我知道當(dāng)我讀取時(shí)我想要malvoisin的聯(lián)系人)
·家是2號(hào)
·辦公室是3號(hào)
·luc、mobile是4號(hào)
·gregoire、home是5號(hào)
·通過(guò)用戶(hù)的項(xiàng)目選擇
o項(xiàng)目編號(hào)選擇=允許用戶(hù)從項(xiàng)目前面的號(hào)碼中選擇一個(gè)項(xiàng)目(我們只使用從1到5的數(shù)字)
o項(xiàng)目?jī)?nèi)容選擇=允許用戶(hù)從項(xiàng)目的標(biāo)簽中選擇一個(gè)項(xiàng)目(例如:celine)
·元組=模塊的檢測(cè)之后,功能和實(shí)體(項(xiàng)目選擇)
o系統(tǒng)可以利用兩種類(lèi)型的功能執(zhí)行處理
·知識(shí)類(lèi)型=訪(fǎng)問(wèn)數(shù)據(jù)知識(shí)(qa,目錄,維基百科,...)以給用戶(hù)一個(gè)答案。
·動(dòng)作類(lèi)型=需要管理和訪(fǎng)問(wèn)外部/內(nèi)部apis
·基于以下描述的nlu處理的結(jié)果,系統(tǒng)生成2個(gè)同步元素:
otui=觸摸用戶(hù)交互(針對(duì)用戶(hù)的屏幕的設(shè)計(jì)作為任何類(lèi)型的應(yīng)用程序)
ovui=語(yǔ)音用戶(hù)交互(具有向用戶(hù)詢(xún)問(wèn)更多信息或詳細(xì)信息或詢(xún)問(wèn)其他問(wèn)題能力的語(yǔ)音反饋)
ovui和tui是完全同步的,你能夠通過(guò)觸摸或聲音進(jìn)入功能工作流的下一步,兩者都是同時(shí)的
·如果你敲擊屏幕以選擇項(xiàng)目,你將轉(zhuǎn)到下一步,并且代理知道你在應(yīng)用程序中的上下文位置。
·這個(gè)上下文位置允許聲音與視覺(jué)同步
·基于當(dāng)前工作流,代理可以檢測(cè)是否需要更多信息來(lái)完成用戶(hù)的當(dāng)前意圖,并利用新的asr啟動(dòng)(在向tts發(fā)送句子反饋之后)來(lái)要求它。
o用戶(hù):今晚電視上有什么?
o系統(tǒng):在哪個(gè)頻道(因?yàn)橛脩?hù)的意圖被tv檢測(cè)=模塊和今晚=動(dòng)作頻道、黃金時(shí)段、今晚的一部分)>
·系統(tǒng)理解它錯(cuò)過(guò)一個(gè)變量來(lái)完成動(dòng)作并要求它。
o用戶(hù):在頻道一上
o系統(tǒng):這里是頻道one的主要節(jié)目?!璪lablabla
o用戶(hù):和頻道二(在這種情況下,我們使用上下文來(lái)了解當(dāng)前的意圖是什么和用戶(hù)的最后一個(gè)動(dòng)作=tv/給出今晚的主要演出)
o系統(tǒng):這是頻道二的主要節(jié)目。...bliblibli
o...并且系統(tǒng)可以在沒(méi)有限制的情況下繼續(xù)這個(gè)上下文,我們稱(chēng)這個(gè)工作流之為“直接上下文”
·基于前一點(diǎn)(意圖/上下文管理),我們可以使用不同類(lèi)型的上下文
o請(qǐng)參見(jiàn)以下點(diǎn)的說(shuō)明。
暫時(shí)上下文矩陣依賴(lài)性。
在進(jìn)入上下文類(lèi)型之前,我們需要定義在vcp中從xbrainsoft創(chuàng)建的上下文。
上下文是(定義為當(dāng)前上下文)
·作為3d存儲(chǔ)矩陣工作:
o維度1:當(dāng)前模塊(模塊電話(huà))
o維度2:當(dāng)前動(dòng)作(動(dòng)作在模塊電話(huà)中撥打電話(huà))
o維度3:當(dāng)前屏幕(動(dòng)作的步驟,例如:在模塊手機(jī)中針對(duì)動(dòng)作呼叫的聯(lián)系人的選擇)
·你可以通過(guò)具有最小3項(xiàng)(對(duì)象類(lèi)型,id“名稱(chēng)”和值)的元組在任何存儲(chǔ)實(shí)例(上下文字段)中保存任何類(lèi)型的信息,具有可以在任何級(jí)別的存儲(chǔ)項(xiàng)目上擴(kuò)展的能力。
o任何類(lèi)型的變量(整形、字符串、日期...)
o任何類(lèi)型的可序列化對(duì)象(汽車(chē)類(lèi)型、用戶(hù)類(lèi)型、...)
·具有使用歷史的能力=4d存儲(chǔ)矩陣(上下文是通過(guò)時(shí)間變量在過(guò)程中的工作)
o每個(gè)時(shí)間狀態(tài)是針對(duì)短期和中期的用戶(hù)會(huì)話(huà)的保存
o每個(gè)時(shí)間狀態(tài)可以長(zhǎng)期保存在文件或數(shù)據(jù)庫(kù)中
上下文與用戶(hù)的功能當(dāng)前工作流有關(guān)以給出針對(duì)長(zhǎng)期創(chuàng)造中學(xué)習(xí)意圖可能性。
我們可以有2類(lèi)上下文:
·應(yīng)用程序上下文=許多用戶(hù)(應(yīng)用程序的所有用戶(hù)或應(yīng)用程序的一部分用戶(hù))在短期、中期或長(zhǎng)期內(nèi)共享一般上下文。
·會(huì)話(huà)上下文=針對(duì)唯一用戶(hù)的上下文。
上下文類(lèi)型
·直接上下文:參見(jiàn)上面的描述。
·間接上下文(暫時(shí)上下文)=在用戶(hù)和代理之間的任何問(wèn)題/答案(有或沒(méi)有直接上下文)之后,用戶(hù)可以轉(zhuǎn)到另一個(gè)模塊/功能,在那里他可以再次使用直接上下文。但是在這一點(diǎn)之后,用戶(hù)可以訪(fǎng)問(wèn)以前的直接上下文模塊以繼續(xù)與系統(tǒng)的對(duì)話(huà),如下所述:
o用戶(hù):什么天氣=>代理給我在帕洛阿爾托的天氣(他檢測(cè)到我的設(shè)備gps信息來(lái)找到我的位置,并給我在帕洛阿爾托的天氣)
o用戶(hù):在舊金山=>代理查找我的最后一個(gè)直接上下文,并給我在sf的天氣
o用戶(hù):那里是什么時(shí)間=>代理理解我想改變意圖模塊,并從上一個(gè)上下文中返回他需要的變量,以完成查詢(xún)?cè)趕f的時(shí)間(小時(shí))
o用戶(hù):明天的天氣怎么樣=>代理偵測(cè)我想回到天氣模塊(新意圖),他在我最后一次天氣查詢(xún)處找到地方,并給我sf的明天的天氣。
o//間接上下文可以在時(shí)間上持續(xù),其作為文件或數(shù)據(jù)庫(kù)保存在長(zhǎng)期存儲(chǔ)器中。相同地,如果在模塊中的任何操作中有任何斷開(kāi)連接,則直接上下文將成為間接上下文。
·意圖學(xué)習(xí)(il)=基于上述描述,我們可以容易地想象如何創(chuàng)建具有到模塊/動(dòng)作/屏幕/工作流程的每個(gè)元組的權(quán)重的意圖學(xué)習(xí)。
o什么是il=系統(tǒng)基于他的歷史查詢(xún)、執(zhí)行的工作流和實(shí)現(xiàn)的結(jié)果來(lái)理解用戶(hù)查詢(xún)的感知(就像個(gè)人助理的智能宏)的能力。
o樣本1(簡(jiǎn)單)=
·時(shí)間1
·用戶(hù):請(qǐng)你呼叫l(wèi)ouis?
·系統(tǒng):我的聯(lián)系人列表中有很多l(xiāng)ouis,你想要哪一個(gè)?(我有3個(gè)路易斯)
·用戶(hù):monier(=姓氏)
·系統(tǒng):好的,我打電話(huà)給louismonier
·時(shí)間2
·用戶(hù):呼叫l(wèi)ouis!
·系統(tǒng):我呼叫l(wèi)ouismonier,對(duì)不對(duì)?
·用戶(hù):是...系統(tǒng)調(diào)用louismonier。
·用戶(hù):不...好的,我有幾個(gè)louis在你的聯(lián)系人列表中,...(系統(tǒng)示出與時(shí)間1的第二步相同的列表)
·時(shí)間3:
·用戶(hù):立即呼叫l(wèi)ouis!
·系統(tǒng):我呼叫l(wèi)ouismonier。(系統(tǒng)撥打電話(huà))
o樣本2(更復(fù)雜)=
·時(shí)間1
·用戶(hù):發(fā)送消息給路易斯
·system=誰(shuí)是要發(fā)送消息的聯(lián)系人?
·用戶(hù):louismonier(或louis+過(guò)濾器monier,或monier+過(guò)濾器louis)
·system=好的,你想發(fā)送一個(gè)文本或郵件?
·用戶(hù)=文本
·system=好,你想發(fā)送什么類(lèi)型的內(nèi)容(我可以選擇一個(gè)免費(fèi)的文本、聲樂(lè)文本的模板文本)
·用戶(hù)=免費(fèi)文本
·系統(tǒng)=說(shuō)你發(fā)送的信息
·用戶(hù)說(shuō)消息
·系統(tǒng)要求消息內(nèi)容的確認(rèn)、內(nèi)容并且要求驗(yàn)證以發(fā)送
·用戶(hù)可以說(shuō)是或更改聯(lián)系人、消息、添加更多內(nèi)容消息或取消。
·時(shí)間2
·用戶(hù):發(fā)送消息給louis
·系統(tǒng)=說(shuō)你的消息以發(fā)送
·用戶(hù)說(shuō)消息
·系統(tǒng)請(qǐng)求消息內(nèi)容的確認(rèn)、內(nèi)容和要求驗(yàn)證以發(fā)送
·用戶(hù)可以說(shuō)是或更改聯(lián)系人、消息、添加更多內(nèi)容消息或取消。
o樣本3(更復(fù)雜)
·時(shí)間n
·用戶(hù)=每個(gè)星期三,用戶(hù)當(dāng)他下午6點(diǎn)離開(kāi)辦公室去家之前,呼叫他的妻子(要求孩子們準(zhǔn)備去運(yùn)動(dòng))
·為此,用戶(hù)需要使用像上述#1的樣本來(lái)呼叫他的妻子。
·系統(tǒng)正在使用許多信息源=bt數(shù)據(jù),obd數(shù)據(jù)(或不),時(shí)間(6pm),地點(diǎn)(不在家),歷史意圖(作為日程表提醒+地理圍欄)
·系統(tǒng)=當(dāng)用戶(hù)到達(dá)他的車(chē)(由汽車(chē)bt連接或obd連接器檢測(cè)到),并在x分鐘(平均時(shí)間安裝在車(chē)內(nèi))后,
·系統(tǒng)會(huì)自動(dòng)回復(fù)給用戶(hù),并說(shuō):
·系統(tǒng):“greg,你想要我開(kāi)始導(dǎo)航到你的家,呼叫你的妻子。
·用戶(hù):是=>對(duì)celinemalvoisin的呼叫動(dòng)作正在啟動(dòng)
·用戶(hù):否=>代理不做任何事情,并注意到意圖學(xué)習(xí)項(xiàng)目的降級(jí)。
在一個(gè)實(shí)施例中,創(chuàng)建il以限制與用戶(hù)的asr交互,并優(yōu)化在代理需要執(zhí)行的任何動(dòng)作上實(shí)現(xiàn)的時(shí)間。il基于當(dāng)前上下文存儲(chǔ)通用工作流執(zhí)行,并要求其本身找不到的參數(shù)。
我還有很多其他的系統(tǒng)il樣本,我將在下周進(jìn)行部署。我是法國(guó)人,英語(yǔ)asr系統(tǒng)不能很好地識(shí)別我的聲音(關(guān)于我的法語(yǔ)口音),在這種情況下我想用系統(tǒng)以英文向你發(fā)送文本,我可以使用樣本2,然后在發(fā)送文本之前,我可以要求用英文翻譯文本(如果你愿意的話(huà),我有演示),系統(tǒng)將用英語(yǔ)翻譯我的法語(yǔ)句子并發(fā)送給你。在同一時(shí)間,他將理解你在說(shuō)英語(yǔ),并將針對(duì)來(lái)自你的任何消息(在驗(yàn)證你以英文發(fā)送給我的文本之前)使用英文的tts(默認(rèn)情況下)你你。//有趣的是,我們?nèi)绾文軌蜉p松地拆分復(fù)雜的任務(wù);p=通過(guò)語(yǔ)音實(shí)時(shí)文本翻譯。
另一個(gè)有趣的一點(diǎn)是,我們可以斷開(kāi)上下文或意圖,以從工作流應(yīng)用程序中任何地方將優(yōu)先權(quán)給任何關(guān)鍵字或快捷方式句子。
附錄e:上下文
上下文:現(xiàn)有個(gè)人助理的現(xiàn)狀
今天,個(gè)人助理已經(jīng)有了第一級(jí)的上下文,主要是幫助他們理解用戶(hù)的句子,并嘗試認(rèn)清這些詞。以下示例解釋了它們?nèi)绾喂ぷ?/p>
·我想呼叫renaud=>名字
·我正在駕駛renault=>品牌車(chē)
這里是關(guān)系和上下文定義以定義系統(tǒng)需要解釋并發(fā)回給用戶(hù)哪個(gè)[renaud,renault]。上下文也被用在特定情況下如天氣怎么樣...和明天(本地化為上下文變量,但它只是具有在兩個(gè)步驟之間共享的簡(jiǎn)單的本地化變量的過(guò)程)。
挑戰(zhàn)
個(gè)人助理的主要挑戰(zhàn)是在用戶(hù)和代理之間建立真正的對(duì)話(huà)交換。
要理解這一方面,我們需要了解“真正的對(duì)話(huà)”的資格:
·繼續(xù)對(duì)話(huà)管理作為任何人的討論(不是問(wèn)題回答)
o能夠詢(xún)問(wèn)有關(guān)雅虎的信息...誰(shuí)是創(chuàng)始人,什么是股票和新聞(代理記住主題)
·上下文對(duì)話(huà)信息記憶:短,中,長(zhǎng)期
o能夠記住討論流中的信息
·過(guò)程工作流記憶的上下文狀態(tài):短期,中期和長(zhǎng)期
o能夠記住在進(jìn)程或討論工作流程(生成或不生成動(dòng)作)中在何處(步驟),以便給出在將來(lái)的任何時(shí)間繼續(xù)進(jìn)行流程或工作流的能力。
除此之外,我們需要生成通過(guò)代理使用的語(yǔ)言的演變以與用戶(hù)交換。而且,除此之外,我們還需要從代理那里得到共鳴的看法。
xbrainsoft的通用上下文管理
上下文中,如我們上次呼叫期間解釋的,由4個(gè)部件構(gòu)建:
1.上下文客戶(hù)端持有者(ccsh)
該第一個(gè)部件允許來(lái)自客戶(hù)端(機(jī)器人、智能手機(jī)、車(chē)輛、家、...)的上下文工作流程的客戶(hù)端存儲(chǔ)、使用和定義(值)以與服務(wù)器端共享。ccsh是具有api的fx以用于從客戶(hù)端創(chuàng)建、使用和定義上下文工作流的值,并通過(guò)下面的csp發(fā)送它。
2.上下文同步協(xié)議(csp)
第二個(gè)部件定義了針對(duì)當(dāng)前上下文的狀態(tài)或子狀態(tài)的每個(gè)屬性(變量)的密鑰訪(fǎng)問(wèn)(上下文id)的協(xié)議(標(biāo)準(zhǔn)化),它驗(yàn)證密鑰訪(fǎng)問(wèn)的格式和存在。它們可以是一個(gè)簡(jiǎn)單的文本變量(name/value)或具有他實(shí)例的特定對(duì)象。csp的目標(biāo)是通信協(xié)議,它通過(guò)代理(客戶(hù)端/服務(wù)器)兩側(cè)的2框架構(gòu)建,它負(fù)責(zé)驗(yàn)證客戶(hù)端和服務(wù)器之間的正確協(xié)議通信,并確保上下文信息被正確傳遞和同步化。
3.上下文代理-服務(wù)器端持有者(ca)
第三個(gè)部件允許來(lái)自服務(wù)器端(在線(xiàn)服務(wù)器)的上下文工作流的服務(wù)器存儲(chǔ)、使用和定義(值)通過(guò)csp與客戶(hù)端共享。ca是一個(gè)帶有api的fx以用于從服務(wù)器端創(chuàng)建、使用和定義上下文工作流的值,并通過(guò)上面的csp發(fā)送它。
4.上下文引擎
最后一個(gè)部件允許在數(shù)據(jù)存儲(chǔ)(任何支持)上的變量共享級(jí)別和中長(zhǎng)期會(huì)話(huà)。
短期存儲(chǔ)由客戶(hù)端和服務(wù)器端共享的當(dāng)前會(huì)話(huà)進(jìn)行管理。
它可以定義主題的上下文類(lèi)型的類(lèi)型或分類(lèi)(變量可以是簡(jiǎn)單變量或序列化對(duì)象+值)。
1.當(dāng)前用戶(hù)簡(jiǎn)檔=關(guān)于用戶(hù)簡(jiǎn)檔的任何信息(facebook簡(jiǎn)檔,應(yīng)用簡(jiǎn)檔,...)
2.當(dāng)前模塊=關(guān)于模塊的任何信息(電話(huà)、消息、導(dǎo)航、新聞、...)
3.當(dāng)前功能=有關(guān)功能的任何信息(撥打電話(huà)、接收呼叫、發(fā)送短信、閱讀新聞、分享新聞,...)
1.針對(duì)呼叫l(wèi)ouismonier呼叫l(wèi)ouis可以從學(xué)習(xí)louis=louismonier的中長(zhǎng)期上下文引擎加載。
4.當(dāng)前屏幕=當(dāng)前示出給用戶(hù)的有關(guān)屏幕的任何信息。
5.用戶(hù)數(shù)據(jù)=api讓開(kāi)發(fā)者在他想要的任何方面使用上下文(新的上下文形狀)
6.工作流程歷史=任何信息關(guān)于用戶(hù)的工作流的位置,信息關(guān)于:經(jīng)示出的或示出的屏幕、在特定步驟的變量值、工作流程狀態(tài)、...
1.我要求在facebook上共享新聞,并且在我說(shuō)“繼續(xù)”之后,代理將進(jìn)行到針對(duì)當(dāng)前類(lèi)別的新聞列表中的下一個(gè)新聞。代理從上下文中知道:當(dāng)前類(lèi)別,新聞閱讀中的步驟它是什么方…并且它可以以用戶(hù)需要的正確意圖發(fā)送給我。
處理
1.語(yǔ)音和連接平臺(tái)正在以同步和異步模式工作,我們需要隨時(shí)驗(yàn)證客戶(hù)端和服務(wù)器端之間的上下文的完美同步。
2.每個(gè)模塊、功能、屏幕、應(yīng)用程序、會(huì)話(huà)或任何狀態(tài)和更多需要使用唯一id(上下文id)進(jìn)行標(biāo)識(shí),以在客戶(hù)端和服務(wù)器之間共享。
3.上下文id(信息存儲(chǔ)存儲(chǔ)器)及其值存儲(chǔ)在代理(客戶(hù)端/服務(wù)器端)的每一側(cè),并且在每次交互時(shí)都在雙方之間進(jìn)行同步。
4.上下文id允許:
1.基于變量(簡(jiǎn)單變量或?qū)ο?的值創(chuàng)建過(guò)濾器和上下文操作:如果...那么...那...
2.在中期或長(zhǎng)期存儲(chǔ)查找需要加載到短期記憶中的信息(或通過(guò)從全球用戶(hù)行為的機(jī)器學(xué)習(xí)/應(yīng)用級(jí)別,針對(duì)請(qǐng)求值的概率)
3.了解我們?cè)诠ぷ髁鞒讨械牟襟E,之前的步驟(或通過(guò)從全球用戶(hù)行為機(jī)器學(xué)習(xí),下一步的概率)。
4….以及我們正在從這個(gè)創(chuàng)新中發(fā)現(xiàn)更多。
它如何工作(生命周期)
·在任何asr之后和就在nlu進(jìn)程之前,該設(shè)備利用句子消息從設(shè)備發(fā)送帶有當(dāng)前上下文id的隱藏部分。
·在執(zhí)行任何自然語(yǔ)言理解之前,代理查看密鑰訪(fǎng)問(wèn)(上下文id)
o代理正在查看內(nèi)容并過(guò)濾動(dòng)作的全局語(yǔ)言字典和理解當(dāng)前的上下文。
·代理在上下文理解中啟動(dòng)nlu進(jìn)程
o動(dòng)作是啟動(dòng)(api訪(fǎng)問(wèn)或知識(shí)訪(fǎng)問(wèn))
o代理解釋用戶(hù)查詢(xún)的意義...(見(jiàn)以前的郵件)
·在給出答案到設(shè)備(或任何種類(lèi)的終端點(diǎn))之前,
o代理通過(guò)隱藏部分中的應(yīng)答消息發(fā)送新的上下文(模塊/功能/屏幕)(如html頁(yè)面的標(biāo)題)
o新的上下文可以從許多變量定義:
·終端點(diǎn)單元中的當(dāng)前屏幕
·當(dāng)前模塊,功能
·用戶(hù)的句子、對(duì)話(huà)和選擇工作流。
·代理合并答案(具有語(yǔ)音、屏幕、信息的包)以發(fā)送到設(shè)備(終端點(diǎn))用以呈現(xiàn)給用戶(hù)。
·客戶(hù)端執(zhí)行包并存儲(chǔ)當(dāng)前上下文。
o可以從任何屏幕、功能或模塊強(qiáng)制上下文。在主屏幕的情況下,我們強(qiáng)制上下文的重置,并讓用戶(hù)從與代理的干凈交互開(kāi)始。
在服務(wù)器與客戶(hù)端(終端點(diǎn))之間的上下文沖突的情況下,客戶(hù)端(終端點(diǎn):設(shè)備、車(chē)輛、家庭)是控制者,因?yàn)樗碛脩?hù)的行為(真正的控制者)。
使用樣本:
·上下文件化louis以選擇當(dāng)選擇用戶(hù)說(shuō):我想呼叫l(wèi)ouis(基于他的歷史調(diào)用行為)=>呼叫l(wèi)ouismonier
·上下文化過(guò)程執(zhí)行:向louis發(fā)送消息
o系統(tǒng)知道:消息=email,louis=louismonier
o允許語(yǔ)音快捷方式...并在工作流程中剪切兩個(gè)步驟以向louismonier發(fā)送電子郵件。
·上下文化下一步驟以執(zhí)行:在許多會(huì)話(huà)中,我要求新聞?dòng)嗛啠缴鷳B(tài)、政治和體育。下一次我要求生態(tài),代理將提議你閱讀政治和體育新聞。
·基于應(yīng)用程序全局預(yù)測(cè)工作流,上下文化下一步。
·下文化所請(qǐng)求的動(dòng)作,并理解其不針對(duì)當(dāng)前上下文,并能將其用于上一個(gè)動(dòng)作。
o我正在閱讀新聞列表,我要求天氣,我說(shuō)“繼續(xù)”,代理去到下一個(gè)消息。
·將特定單詞上下文化為“音樂(lè)”...在可能是音樂(lè)新聞或“你手機(jī)上的音樂(lè)的新聞的上下文中詢(xún)問(wèn)。
o在音樂(lè)上下文外,顯然可以訪(fǎng)問(wèn)設(shè)備的音樂(lè)曲目
o在新聞上下文中,它可以播放新聞的音樂(lè),代理理解并回復(fù)用戶(hù)要求更高的精度。
o如果用戶(hù)說(shuō),在新聞上下文播放音樂(lè),代理理解用戶(hù)不想閱讀新聞。
·因?yàn)槲覀冎喇?dāng)前的上下文,所以我們可以將任何輸入的語(yǔ)音識(shí)別上下文化,然后在嘗試?yán)斫饩渥拥囊饬x之前改變句子中的單詞,或者相反,擴(kuò)展特定上下文中可用的詞匯表來(lái)開(kāi)始任何動(dòng)作。
o第二個(gè)效果是我們不需要?jiǎng)?chuàng)建可能的模式來(lái)驗(yàn)證動(dòng)作(例如:音樂(lè)可以在任何句子中捕獲,在根屏幕的上下文中短或長(zhǎng)以啟動(dòng)播放音樂(lè)的動(dòng)作)
o第三個(gè)效果是翻譯,因?yàn)槟隳憧梢葬槍?duì)每個(gè)上下文模塊/功能/屏幕限制關(guān)鍵字以捕獲用戶(hù)意圖的動(dòng)作
·在電視上下文中玩是玩游戲或電視節(jié)目
·在運(yùn)動(dòng)的上下文中玩是玩新游戲
·在迪斯科舞廳的上下文中玩是播放音樂(lè)
·...1個(gè)字,很多意圖依靠上下文...在任何語(yǔ)言中容易翻譯
o第四個(gè)效果是任何代理的支持,因?yàn)樽值淇梢苑浅S邢蕖?/p>
在新聞廣播員的情況下,我們抓住“新聞”(+同義詞)和新聞主題實(shí)體。
·創(chuàng)建任務(wù)優(yōu)先級(jí)管道
o我當(dāng)前正在為聯(lián)系人創(chuàng)建消息(一般來(lái)說(shuō),我想去動(dòng)作的結(jié)尾)
o在這個(gè)時(shí)間期間我從聯(lián)系人接收文本,系統(tǒng)將查看當(dāng)前上下文并知道用戶(hù)何時(shí)處于消息的創(chuàng)建的過(guò)程中,他不需要中斷當(dāng)前動(dòng)作
o代理程序創(chuàng)建消息流水線(xiàn),在創(chuàng)建消息上下文結(jié)束時(shí),他會(huì)建議我閱讀消息(當(dāng)上下文正在改變時(shí))
·翻譯依靠上下文的任何消息
o我創(chuàng)建一個(gè)消息給mark(他正在說(shuō)英語(yǔ),我用法語(yǔ)創(chuàng)建消息),基于消息的上下文,系統(tǒng)知道,他需要驗(yàn)證發(fā)送之前他是否知道接收者的語(yǔ)言以翻譯它。
上下文工作流是從用戶(hù)會(huì)話(huà)結(jié)束開(kāi)始的過(guò)程工作流中的上下文矩陣(模塊,功能,屏幕)的狀態(tài)。我們創(chuàng)建的一個(gè)系統(tǒng)允許計(jì)算機(jī)從意圖學(xué)習(xí)創(chuàng)建來(lái)自集體智慧(數(shù)字直覺(jué)生成)的直覺(jué)。
只是關(guān)于前面的幾個(gè)注意事項(xiàng):
·如解釋的,我們正工作在同步和異步模式中。
o這2個(gè)路徑被用于允許針對(duì)異步模式的主動(dòng)性和更多。
o允許雙方知道哪里是對(duì)話(huà)的每一方上的兩個(gè)狀態(tài)。
·針對(duì)生命周期的插件:
o針對(duì)第一點(diǎn):也可以在應(yīng)用程序?qū)Ш?觸覺(jué)交互)期間發(fā)送,不僅來(lái)自asr。
o針對(duì)第5點(diǎn):包可以與全部或部分內(nèi)容一塊發(fā)送
·我們可以發(fā)送所有元素,而不需要集成語(yǔ)音,并在這種情況下,代理將管理整個(gè)渲染以及上下文的創(chuàng)建/編輯。