對話分析的制作方法

文檔序號：2830099閱讀：294來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：對話分析的制作方法
對話分析
些旦冃足
以下討論僅是為了概括的背景信息而提供的，并不旨在用于協(xié)助確定所要求保護的主題的范圍。
人們在日?；顒又性絹碓筋l繁地使用諸如個人數(shù)字助理(PDA)、設(shè)備和便攜式電話等小型計算設(shè)備。隨著現(xiàn)在微處理器可用于運行這些設(shè)備的處理能力的提高，這些設(shè)備的功能也在增加，并且在某些情況下合并。例如，現(xiàn)在許多便攜式電話可用于訪問和瀏覽因特網(wǎng)，以及可用于存儲諸如地址、電話號碼等個人信息。
由于這些計算設(shè)備被越來越頻繁地使用，因此需要為用戶提供用于將信息輸入到計算設(shè)備中的簡便的接口。不幸的是，由于期望將這些設(shè)備保持盡可能小以便于攜帶它們，將字母表的所有字母作為獨立按鍵的常規(guī)鍵盤一般是不可能的，這是因計算設(shè)備外殼上可用的有限表面區(qū)域而引起的。即使不說小型計算設(shè)備的示例，對于為所有類型的計算設(shè)備提供更為便利的接口也存在著興趣。
為了解決這個問題，對于使用話音或語音以便無論是在本地計算設(shè)備上還是通過諸如因特網(wǎng)等局域網(wǎng)訪問信息越來越感興趣并且得到越來越多的采用。使用語音識別，對話交互通常在用戶和計算設(shè)備之間進行。用戶一般可聽地和/或可視地接收信息，同時可聽地響應(yīng)于提示或發(fā)出命令。然而，通常期望在應(yīng)用程序開發(fā)期間或在部署應(yīng)用程序之后查明其性能。具體地，期望從記入日志的數(shù)據(jù)中查明用戶對應(yīng)用程序的使用和/或成功率。有了這樣的信息，開發(fā)者能夠?qū)?yīng)用程序進行"調(diào) 整"(即作出調(diào)節(jié))以便于更好地滿足應(yīng)用程序的用戶的需求。例如，標(biāo)識出應(yīng)用程序和用戶的對話中最可能遇到問題的部分會是有用的。這樣，對話的這些部分可以被調(diào)節(jié)以減少混亂。
然而，從所部署的應(yīng)用程序(例如語音或DTMF)的日志數(shù)據(jù)來確定對話問題是困難的。對話問題本質(zhì)上是對于交互的流程的用戶體驗問題。它們通常會導(dǎo)致用戶受挫，之后是掛機或者請求操作員協(xié)助。此外，就用戶敵意以及支持開銷而言，對于部署應(yīng)用程序的實體，對話問題是代價昂貴的。
雖然對話問題的癥狀相當(dāng)清晰(較低的任務(wù)完成率以及掛機或其他取消的增
5加)，但是這種問題的原因可能是非常難以發(fā)現(xiàn)的。典型的對話問題往往是系統(tǒng)和用戶對手邊的任務(wù)的理解之間的失配的結(jié)果。它們通常源于較低級別的應(yīng)用程序問題，諸如混亂的提示，或錯誤地采用的路徑(由于系統(tǒng)出錯或用戶誤解)。
通常需要大量的會話數(shù)據(jù)來進行診斷，然而大量的會話數(shù)據(jù)意味著手動分析這種數(shù)據(jù)是冗長而單調(diào)的過程。例如，一般需要對話的冗長加長以使對混亂的完整描述能夠浮現(xiàn)，這必須跨各個用戶來概括。此外，查明問題的源位置(混亂開始的對話狀態(tài))是困難的；對于任何給定的掛機或其他用戶取消，因為問題的源可能是取消之前的若干回合。此外，語音應(yīng)用程序往往在其用戶交互模式中有如此大的不同，使得自動化分析的實現(xiàn)一般是特定于應(yīng)用程序的，并且其擴展性受到限制。最后，對于語音識別應(yīng)用程序，語音識別器的不完美性意味著對用戶行為的真實分析一般必須在用戶輸入的手動轉(zhuǎn)錄上找到一這是次要且通常代價昂貴的過程。
概述
提供本概述以便以簡化的形式引入將在以下詳細(xì)描述中進一步描述的一些概念。本概述并非旨在標(biāo)識出所要求保護的主題的關(guān)鍵特征或必要特征，也不旨在用于協(xié)助確定所要求保護的主題的范圍。
對諸如但不限于語音、DTMF (雙音調(diào)頻)等用戶/系統(tǒng)交互的對話分析提供了一種標(biāo)識對各種各樣應(yīng)用程序通用的可能的對話問題的自動化技術(shù)，并且可以消除對響應(yīng)/話語的轉(zhuǎn)錄的需求。堆堆日志數(shù)據(jù)應(yīng)用分析過程，并使用諸如對話回合 (用戶一系統(tǒng)交換)信息等對話移動信息來揭示和/或診斷應(yīng)用程序中最有可能的問題，對話回合信息諸如但不限于，回合類型(要求新的信息、要求值的確認(rèn)、給出提供信息的陳述等)和提示類型(提問、給出陳述、提供幫助、重復(fù)提供信息的內(nèi)容、響應(yīng)'不識別'事件、響應(yīng)無聲等)。
例如，假設(shè)每周接收幾千個呼叫的電話系統(tǒng)(帶有語音識別或DTMF輸入)，可以對一周呼叫的日志執(zhí)行數(shù)據(jù)分析，并且將突出應(yīng)用程序的所有用戶遇到的可能的問題區(qū)域。數(shù)據(jù)分析也可以提供對問題類型的指示，諸如但不限于"正在執(zhí)行的" 對話(任務(wù))，即顯示低水平的可用性，而不管其成功/失敗率以及其原因；其中提示對用戶而言是混亂的對話狀態(tài)；其中開始對最大量的用戶浮現(xiàn)問題的對話狀態(tài)。
作為該數(shù)據(jù)分析的結(jié)果，調(diào)整該應(yīng)用程序的開發(fā)者現(xiàn)在能夠快速地執(zhí)行分析以證實這些問題和/或在必要時修補任務(wù)和狀態(tài)，而無需分析更多的數(shù)據(jù)或呼叫。這表示大量地節(jié)省應(yīng)用程序維護和調(diào)整的時間和成本。
附圖簡述

圖1是計算設(shè)備操作環(huán)境的第一實施例的平面圖。圖2是圖1的計算設(shè)備的框圖。
圖3是通用計算機的框圖。
圖4是客戶機/服務(wù)器系統(tǒng)的體系結(jié)構(gòu)的框圖。
圖5是示出用于在客戶機側(cè)標(biāo)記中提供識別和可聽提示的方法的框圖。圖6是示出伴隨控件的框圖。
圖7是用于創(chuàng)建啟用語音的應(yīng)用程序的方法的流程圖。圖8是執(zhí)行啟用語音的應(yīng)用程序的方法的流程圖。圖9是對話分析模塊的框圖。
圖10是用于執(zhí)行有關(guān)較差性能的對話分析的方法的流程圖。圖11是用于執(zhí)行有關(guān)混亂提示的對話分析的方法的流程圖。圖12是用于執(zhí)行有關(guān)標(biāo)識對話問題的源的對話分析的流程圖。
詳細(xì)描述
在具體描述對話分析(但不限于語音應(yīng)用程序和DTMF)之前，概括地描述可在語音應(yīng)用程序中使用的計算設(shè)備會是有用的?，F(xiàn)在參考圖1，在30處示出了一種示例性形式的數(shù)據(jù)管理設(shè)備(PIM、 PDA等)。然而，可以構(gòu)想本文中所描述的概念也可以使用以下討論的其他計算設(shè)備，尤其是那些具有用于輸入按鈕等的有限表面區(qū)域的計算設(shè)備來實施。例如，電話和/或數(shù)據(jù)管理設(shè)備也可以得益于本文中所描述的概念。與現(xiàn)有的便攜式個人信息管理設(shè)備和其他便攜式電子設(shè)備相比，這種設(shè)備具有增強的用途，且這種設(shè)備的功能和緊湊尺寸更有可能促進用戶一直攜帶該設(shè)備。因此，并不旨在使此處所描述的本申請的范圍受限于此處所示的示例性數(shù)據(jù)管理或PIM設(shè)備、電話或計算機的公開。
一種示例性形式的數(shù)據(jù)管理移動設(shè)備30在圖1中示出。移動設(shè)備30包括外殼32并具有包括顯示器34的用戶接口，它使用觸敏顯示屏幕結(jié)合指示筆33。指示筆33用于在指定的坐標(biāo)處按下或接觸顯示器34以選擇一域，以便選擇性地移動光標(biāo)的開始位置，或者以其它方式，諸如通過姿勢或手寫來提供命令信息。作為替代，或者除此之外，一個或多個按鈕35可以被包括在設(shè)備30上以供導(dǎo)航。此外，
7也可以提供諸如可轉(zhuǎn)動輪、滾軸等其他輸入機制。然而，應(yīng)該注意，本發(fā)明并不旨在受限于這些形式的輸入機制。例如，另一種形式的輸入可以包括諸如通過計算機視覺的可視輸入。
現(xiàn)在參考圖2，一框圖示出了構(gòu)成移動設(shè)備30的功能組件。中央處理單元
(CPU) 50實現(xiàn)軟件控制功能。CPU50耦合到顯示器34，使得依照出現(xiàn)在顯示器 34上的控制軟件來生成文本和圖形圖標(biāo)。揚聲器43可以耦合到CPU 50，該揚聲器通常帶有數(shù)模轉(zhuǎn)換器59以提供音頻輸出。下載或由用戶輸入到移動設(shè)備30中的數(shù)據(jù)被存儲在雙向耦合到CPU 50上的非易失性讀/寫隨機存取存儲器存儲54中。隨機存儲存儲器(RAM) 54提供對由CPU 50執(zhí)行的指令的易失性存儲，以及對諸如寄存器值等臨時數(shù)據(jù)的存儲。配置選項和其他變量的默認(rèn)值被存儲在只讀存儲器(ROM) 58中。ROM 58也可用于存儲設(shè)備的操作系統(tǒng)軟件，這些軟件控制移動設(shè)備30的基本功能以及其他操作系統(tǒng)內(nèi)核功能(例如，將軟件組件載入到RAM 54中)。
RAM 54也以類似于PC上用于存儲應(yīng)用程序的硬盤驅(qū)動器的功能的方式用作代碼的存儲。應(yīng)該注意，雖然使用了非易失性存儲器來存儲代碼，但是可選地，代碼也可以被存儲在不用于代碼執(zhí)行的易失性存儲器中。
無線信號可以由移動設(shè)備通過耦合到CPU 50的無線收發(fā)機52來發(fā)送/接收。如有所需，也可以提供可任選的通信接口 60以便直接從計算機(例如臺式計算機) 或從有線網(wǎng)絡(luò)下載數(shù)據(jù)。因此，接口 60可以包括各種形式的通信設(shè)備，例如紅外線鏈路、調(diào)制解調(diào)器、網(wǎng)卡等。
移動設(shè)備30包括話筒29以及模數(shù)(A/D)轉(zhuǎn)換器37，以及存儲在存儲54中的可任選識別程序(語音、DTMF、手寫、姿勢或計算機視覺)。作為示例，響應(yīng) 于來自設(shè)備30的用戶的可聽信息、指令或命令，話筒29提供語音信號，該信號由 A/D轉(zhuǎn)換器37數(shù)字化。語音識別程序可以對數(shù)字化的語音信號執(zhí)行歸一化和/或特征提取功能，以獲得中間語音識別結(jié)果。使用無線收發(fā)機52或通信接口 60，語音數(shù)據(jù)可被發(fā)送到以下討論并在圖4的體系結(jié)構(gòu)中示出的遠(yuǎn)程識別服務(wù)器204。接著可以將識別結(jié)果返回給移動設(shè)備30以供在其上呈現(xiàn)(例如可視和/或可聽地)，并最后傳送給web服務(wù)器202 (圖4)，其中web服務(wù)器202和移動設(shè)備30以客戶機/服務(wù)器的關(guān)系操作。類似的處理可用于其他形式的輸入。例如，手寫輸入可以在有或沒有預(yù)處理的情況下在設(shè)備上數(shù)字化。如同語音數(shù)據(jù)一樣，這種形式的輸入可以被發(fā)送給識別服務(wù)器204以供識別，其中識別結(jié)果接著被返回給設(shè)備30和/或web服務(wù)器202中的至少一個。同樣地，DTMP數(shù)據(jù)、姿勢數(shù)據(jù)和視覺數(shù)據(jù)可以作類似的處理。取決于輸入的形式，設(shè)備30 (以及以下討論的其他形式的客戶機)可包括諸如攝像機等必要的硬件用于視覺輸入。
除了上述的便攜式或移動計算設(shè)備之外，還應(yīng)該理解，本文中所描述的概念可以用于諸如通用臺式計算機等許多其他機算設(shè)備。例如，具有有限身體能力的用戶可以在諸如全字母數(shù)字鍵盤等其它常規(guī)輸入設(shè)備難以操作時將文本輸入或鍵入到計算機或其他計算設(shè)備。
本發(fā)明也可用許多其他通用或?qū)Ｓ糜嬎阆到y(tǒng)、環(huán)境或配置來操作。適用于本發(fā)明的公知的計算設(shè)備、環(huán)境和/或配置的示例包括，但不限于，無線或蜂窩電話、常規(guī)電話(沒有任何屏幕)、個人計算機、服務(wù)器計算機、手持式或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機頂盒、可編程消費電子設(shè)備、網(wǎng)絡(luò)PC、小型機、大型計算機、包括任何上述系統(tǒng)或設(shè)備的分布式計算環(huán)境等。
以下是對圖3所示的通用計算機120的簡要描述。然而，計算機120也僅是合適的計算環(huán)境的一個示例，并不旨在對本發(fā)明的使用范圍和功能提出任何限制。計算機120也不應(yīng)被解釋為對以下所示組件的任何一個或組合具有任何依賴或要求。
以下描述可以在諸如程序模塊等由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中提供。一般而言，程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等。本文中所描述的示例性實施例可以在分布式計算環(huán)境中實現(xiàn)，其中由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中，程序模塊可以同時位于包括存儲器存儲設(shè)備的本地和遠(yuǎn)程計算機存儲介質(zhì)中。借助附圖，以下描述了程序和模塊執(zhí)行的任務(wù)。本領(lǐng)域的技術(shù)人員可以將該描述和附圖實現(xiàn)為可被寫入任何形式的計算機可讀介質(zhì)的處理器可執(zhí)行指令。
參照圖3，計算機120的組件可包括，但不限于，處理單元140、系統(tǒng)存儲器 150以及將包括系統(tǒng)存儲器在內(nèi)的各種系統(tǒng)組件耦合到處理單元140的系統(tǒng)總線 141。系統(tǒng)總線141可以是若干總線結(jié)構(gòu)類型中的任何一種，包括存儲器總線或存儲器控制器、外圍總線、以及使用各種總線體系結(jié)構(gòu)中的任一種的局部總線。作為示例，而非限制，這些體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線、通用串行總線(USB)、微通道體系結(jié)構(gòu)(MCA)總線、增強型ISA (EISA)總線、視頻電子技術(shù)標(biāo)準(zhǔn)協(xié)會(VESA)局部總線和外圍部件互連(PCI)總線(也稱為背板 (Mezzanine)總線)。計算機120通常包括各種計算機可讀介質(zhì)。計算機可讀介質(zhì)可以是能被計算機120訪問的任何可用介質(zhì)，并包括易失性和非易失性介質(zhì)、可移動和不可移動介質(zhì)。作為示例，而非限制，計算機可讀介質(zhì)可包括計算機存儲介質(zhì)和通信介質(zhì)。計算機存儲介質(zhì)包括以任何方法或技術(shù)實現(xiàn)的、用于存儲諸如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的易失性和非易失性介質(zhì)、可
移動和不可移動介質(zhì)。計算機存儲介質(zhì)包括但不限于RAM、 ROM、 EEPROM、閃存或其它存儲器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲、磁盒、磁帶、磁盤存儲或其它磁性存儲設(shè)備、或任何其它可用于存儲所需信息并可由計算機120訪問的介質(zhì)。
通信介質(zhì)通常在諸如載波或其它傳輸機制等已調(diào)制數(shù)據(jù)信號中具體化計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊、或其它數(shù)據(jù)，且包括任何信息傳送介質(zhì)。術(shù)語"已調(diào)制數(shù)據(jù)信號"意指以在信號中編碼信息的方式設(shè)置或改變其一個或多個特征的信號。作為示例，而非限制，通信介質(zhì)包括諸如有線網(wǎng)絡(luò)或直線連接等有線介質(zhì)，和諸如聲學(xué)、射頻(RF)、紅外線和其它無線介質(zhì)等無線介質(zhì)。以上任何介質(zhì)的組合也應(yīng)包括在計算機可讀介質(zhì)的范圍中。
系統(tǒng)存儲器150包括諸如只讀存儲器(ROM) 151和隨機存取存儲器(RAM) 152等易失性和/或非易失性存儲器形式的計算機存儲介質(zhì)。包含有助于如在起動時在計算機120內(nèi)元件間傳送信息的基本例程的基本輸入/輸出系統(tǒng)(BIOS) 153通常存儲在ROM 151中。RAM 152通常包含可被處理單元140立即訪問和/或當(dāng)時正被操作的數(shù)據(jù)和/或程序模塊。作為示例，而非限制，圖3示出了操作系統(tǒng)154、應(yīng)用程序155、其它程序模塊156、和程序數(shù)據(jù)157。
計算機120還可包括其它可移動/不可移動、易失性/非易失性計算機存儲介質(zhì)。僅作為示例，圖3示出了讀取和寫入不可移動、非易失性磁介質(zhì)的硬盤驅(qū)動器161，讀取和寫入可移動、非易失性磁盤172的磁盤驅(qū)動器171，以及讀取和寫入可移動、非易失性光盤176，諸如CD-ROM或其它光學(xué)介質(zhì)的光盤驅(qū)動器175?？稍谑纠?操作環(huán)境中使用的其它可移動/不可移動、易失性/非易失性計算機存儲介質(zhì)包括，但不限于，磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM 等等。硬盤驅(qū)動器161通常通過諸如接口 160等不可移動存儲器接口與系統(tǒng)總線 141連接，而磁盤驅(qū)動器171和光盤驅(qū)動器175通常通過諸如接口 170等可移動存儲器接口與系統(tǒng)總線141連接。
如上所述并如圖3所示的驅(qū)動器及其相關(guān)聯(lián)的計算機存儲介質(zhì)為計算機120 提供計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲。在圖3中，例如，
10硬盤驅(qū)動器161被示為存儲操作系統(tǒng)164、應(yīng)用程序165、其它程序模塊166和程序數(shù)據(jù)167。注意，這些組件可以與操作系統(tǒng)154、應(yīng)用程序155、其它程序模塊 156和程序數(shù)據(jù)157相同或不同。在此給予操作系統(tǒng)164、應(yīng)用程序165、其它程序模塊166和程序數(shù)據(jù)167的不同編號以至少說明它們是不同的副本。
用戶可通過諸如鍵盤182、話筒183、以及諸如鼠標(biāo)、跟蹤球或觸摸板等的定位設(shè)備181的輸入設(shè)備向計算機120輸入命令和信息。其它輸入設(shè)備(未示出)可包括操縱桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀等等。這些和其它輸入設(shè)備常常通過與系統(tǒng)總線耦合的用戶輸入接口 180與處理單元140相連，但也可通過諸如并行端口、游戲端口或通用串行總線(USB)等其它接口和總線結(jié)構(gòu)連接。監(jiān)視器184 或其它類型的顯示設(shè)備也可通過諸如視頻接口 185等接口與系統(tǒng)總線141相連。除監(jiān)視器以外，計算機還可包括諸如話筒187和打印機186等其它外圍輸出設(shè)備，它們可通過輸出外圍接口 188相連。
計算機120可以使用與一臺或多臺遠(yuǎn)程計算機，諸如遠(yuǎn)程計算機194的邏輯連接在網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計算機194可以是個人計算機、手持式設(shè)備、服務(wù) 器、路由器、網(wǎng)絡(luò)PC、對等設(shè)備或其它常見的網(wǎng)絡(luò)節(jié)點，并且通常包括以上關(guān)于個人計算機120所描述的許多或全部元件。圖3中所描繪的邏輯連接包括局域網(wǎng) (LAN)191和廣域網(wǎng)(WAN)193，但也可包括其它網(wǎng)絡(luò)。這樣的網(wǎng)絡(luò)化環(huán)境在辦公室、企業(yè)范圍計算機網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)上是常見的。
當(dāng)用于LAN網(wǎng)絡(luò)化環(huán)境中時，計算機120通過網(wǎng)絡(luò)接口或適配器190與LAN 191連接。當(dāng)用于WAN網(wǎng)絡(luò)化環(huán)境中時，計算機IIO通常包括調(diào)制解調(diào)器192或其它用于通過諸如因特網(wǎng)等廣域網(wǎng)193建立通信的裝置。可以是內(nèi)置式或外置式的調(diào)制解調(diào)器192通過用戶輸入接口 180或其它適當(dāng)機制與系統(tǒng)總線141連接。在網(wǎng) 絡(luò)化環(huán)境中，關(guān)于計算機120所描述的程序模塊或其一部分可被存儲在遠(yuǎn)程存儲器存儲設(shè)備中。作為示例，而非限制，圖3示出了遠(yuǎn)程應(yīng)用程序195駐留在遠(yuǎn)程計算機194上。應(yīng)當(dāng)理解，所示的網(wǎng)絡(luò)連接是示例性的，且也可以使用其它用于在計算機間建立通信鏈路的手段。
示例性實施例
圖4示出了可以與本文所描述的概念一起使用的基于網(wǎng)絡(luò)的識別(此處例示為廣域網(wǎng))的體系結(jié)構(gòu)200。然而，應(yīng)該理解，與遠(yuǎn)程組件的交互僅是一個實施例，這表現(xiàn)在包括識別器的語音應(yīng)用程序可以在具有這里所提出的所有必須組件或模塊的單個計算設(shè)備上操作。
一般地，存儲在web服務(wù)器202上的信息可以通過移動設(shè)備30 (在本文中也
表示如基于輸入形式所需地具有顯示屏幕、話筒、攝像機、觸敏面板等的其他形式
的計算設(shè)備)或通過電話80來訪問，在通過電話訪問的情況中，響應(yīng)于鍵被按下可聽地或通過電話30生成的音調(diào)來請求信息，并且來自web服務(wù)器202的信息僅可聽地提供回給用戶。
在該示例性實施例中，體系結(jié)構(gòu)200是統(tǒng)一的，這表現(xiàn)在無論信息是通過設(shè) 備30還是使用語音識別的電話80獲取的，單個識別服務(wù)器204都可以支持任一操作模式。此外，體系結(jié)構(gòu)200使用公知的標(biāo)記語言(例如HTML、 XHTML、 cHTML、 XML、 WML等)的擴展來操作。因此，存儲在web服務(wù)器202上的信息也可以使用在這些標(biāo)記語言中找到的公知GUI方法來訪問。通過使用公知的標(biāo)記語言的擴展，在web服務(wù)器202上的創(chuàng)作變得更簡便，并且也可以容易地修改當(dāng)前已有的傳統(tǒng)應(yīng)用程序以包括語音或其他形式的識別。
一般地，設(shè)備30執(zhí)行由web服務(wù)器202提供的HTML+腳本等。當(dāng)需要語音識別時，例如，可以是數(shù)字化的音頻信號或者語音特征的語音數(shù)據(jù)(其中如上所述，音頻信號由設(shè)備30作出了預(yù)處理)被提供給識別服務(wù)器204,并帶有在語音識別期間使用的語法或語言模型的指示。識別服務(wù)器204的實現(xiàn)可以采取多種形式，示出了其中的一種，但一般地包括識別器211。識別的結(jié)果被提供回設(shè)備30以供在需要或適當(dāng)時本地呈現(xiàn)。在通過識別和任何圖形用戶界面(如果使用)編譯信息時，設(shè)備30將信息發(fā)送給web服務(wù)器202以供在需要時對其它HTML腳本的進一步處理和接收。
如圖4所示，設(shè)備30、 web服務(wù)器202和識別服務(wù)器204通常通過網(wǎng)絡(luò)205，此處是諸如因特網(wǎng)等廣域網(wǎng)來連接并且可單獨尋址。因此，無需將這些設(shè)備中的任一個在物理上定位成彼此相鄰。具體地，web服務(wù)器202不必包括識別服務(wù)器204。這樣，web服務(wù)器202處的創(chuàng)作可以集中在它所想要的應(yīng)用程序上，而作者無需知道識別服務(wù)器204的復(fù)雜性。相反，識別服務(wù)器204可以被獨立地設(shè)計并連接到網(wǎng) 絡(luò)205，并由此無需web服務(wù)器202處所需的進一步改變來更新和改進。如下所述， web服務(wù)器202也可以包括可以動態(tài)地生成客戶機側(cè)標(biāo)記和腳本的創(chuàng)作機制。在另一實施例中，web服務(wù)器202、識別服務(wù)器204和客戶機30可以取決于實現(xiàn)機器的性能來組合。例如，如果客戶機包括通用計算機，例如個人計算機，則客戶機可以包括識別服務(wù)器204。同樣，如有所需，web服務(wù)器202和識別服務(wù)器204可以
12被合并到單個機器中。
通過電話80訪問web服務(wù)器202包括將電話80連接到有線或無線電話網(wǎng)絡(luò) 208，該電話網(wǎng)絡(luò)又將電話80連接到第三方網(wǎng)關(guān)210。網(wǎng)關(guān)210將電話80連接到電話話音瀏覽器212。電話話音瀏覽器212包括提供電話接口和話音瀏覽器216的媒體服務(wù)器214。與設(shè)備30—樣，電話話音瀏覽器212從web服務(wù)器202接收HTML 腳本等。在一個實施例中，HTML腳本采用了與提供給設(shè)備30的HTML腳本類似的形式。這樣，web服務(wù)器202無需單獨支持設(shè)備30和電話80，或者甚至單獨支持標(biāo)準(zhǔn)GUI客戶端。相反，可以使用一通用標(biāo)記語言。此外，與設(shè)備30—樣，通過網(wǎng)絡(luò)205或通過專用線路207例如使用TCP/IP從話音瀏覽器216向識別服務(wù)器 204提供從由電話80發(fā)送的可聽信號中作出的語音識別。web服務(wù)器202、識別服務(wù)器204和電話話音瀏覽器212可以被包含在任何適當(dāng)?shù)挠嬎悱h(huán)境中，諸如圖3 所示的通用臺式計算機。
然而，應(yīng)該注意，如果釆用DTMF識別，則這種識別的形式通常在媒體服務(wù) 器214而非識別服務(wù)器204處執(zhí)行。換言之，DTMF語法可由媒體服務(wù)器214使用。
再參考圖4， web服務(wù)器202可以包括服務(wù)器側(cè)插件創(chuàng)作工具或模塊209 (例如微軟公司的ASP、 ASP+、 ASP.Net、 JSP、 Javabeans等)。服務(wù)器側(cè)插件模塊 209可以動態(tài)地生成客戶機側(cè)標(biāo)記，甚至是用于訪問web服務(wù)器202的類型的客戶機的特定形式的標(biāo)記。可以在最初建立客戶機/服務(wù)器關(guān)系時將客戶機信息提供給 web服務(wù)器202，或者web服務(wù)器202可以包括用于檢測客戶機設(shè)備的能力的模塊或例程。這樣，服務(wù)器側(cè)插件模塊208可以為每種話音識別情形(即，話音僅通過電話80，或?qū)υO(shè)備30為多模的)生成一客戶機側(cè)標(biāo)記。通過使用一致的客戶機側(cè) 模型，對許多不同客戶機的應(yīng)用程序創(chuàng)作將容易得多。
除了動態(tài)地生成客戶機側(cè)標(biāo)記之外，下述的高級對話模塊可以被實現(xiàn)為存儲在存儲211中的服務(wù)器側(cè)控件，以供開發(fā)者用于應(yīng)用程序創(chuàng)作。一般地，高級對話模塊211可以基于開發(fā)者所指定的參數(shù)來動態(tài)地生成僅話音和多模情形中的客戶機側(cè)標(biāo)記和腳本。高級對話模塊211可以包括用于生成客戶機側(cè)標(biāo)記以符合開發(fā)者的需求的參數(shù)。
客戶機側(cè)標(biāo)記的生成
如上所述，當(dāng)從客戶機設(shè)備30作出請求時，服務(wù)器側(cè)插件模塊209輸出客戶機側(cè)標(biāo)記。簡言之，服務(wù)器側(cè)插件模塊209允許定義或構(gòu)造網(wǎng)站、由此允許定義或構(gòu)造應(yīng)用程序和由應(yīng)用程序提供的服務(wù)。服務(wù)器側(cè)插件模塊209中的指令由編譯代
碼組成。當(dāng)web請求到達web服務(wù)器202時運該代碼。服務(wù)器側(cè)插件模塊209接著輸出要發(fā)送給客戶機側(cè)設(shè)備30的新的客戶機側(cè)標(biāo)記頁面。如所公知的，這個過程通常被稱為呈現(xiàn)。服務(wù)器側(cè)插件模塊209對提取和封裝標(biāo)記語言及由此提取和封裝客戶機側(cè)標(biāo)記頁面的代碼的"控件"進行操作。這種提取和封裝標(biāo)記語言并在 web服務(wù)器202上操作的控件包括或等價于"小服務(wù)程序(servlet)"或"服務(wù)器側(cè)插件"等。
如所知的，現(xiàn)有技術(shù)的服務(wù)器側(cè)插件模塊可以生成客戶機側(cè)標(biāo)記，用于可視地呈現(xiàn)并與客戶機設(shè)備30交互。于2004年6月17日公布的題為"Web Server Controls for Web Enabled Recognition and/or Audible Prompting (用于啟用web的識別和/或可聽提示的web服務(wù)器控件)"的美國專利申請公開號US 2004/0113908和于2004年11月18日公布的題為"Application Controls for Speech Enabled Recognition用于啟用語音的識別的應(yīng)用程序控件)"的美國專利申請公開號US 2004/0230637A1都詳細(xì)描述了用于將服務(wù)器側(cè)插件模塊209擴展成包括識別和可聽提示擴展的三種不同的方法。雖然本發(fā)明的各方面可以與所有這些方法一起使用，但以下將出于解釋一示例性實施例的目的而提供對一種方法的簡要描述。
參考圖5，識別/可聽提示控件306與可視控件302分離，但是選擇性地與之關(guān)聯(lián)，如下所述。這樣，控件306不會直接構(gòu)建在可視控件302上，而是提供識別 /可聽提示啟用，而無需重寫可視控件302。如控件302等控件306使用了庫300。在該實施例中，庫300包括可視和識別/可聽提示標(biāo)記信息。
這種方法具有顯著的優(yōu)點。首先，無需改變可視控件302的內(nèi)容。第二，控件306可以形成單個模塊，該模塊是一致的且無需依照啟用語音的控件302的性質(zhì) 來改變。第三，語音啟用過程，即明確地將控件306與可視控件302相關(guān)聯(lián)，在設(shè) 計時完全在開發(fā)者的控制之下，因為它是明確和選擇性的過程。這也使得可視控件的標(biāo)記語言可諸如通過控件306生成的標(biāo)記語言所提供的識別或通過諸如鍵盤等常規(guī)輸入設(shè)備從多個源接收輸入值。簡言之，控件306可以被添加到服務(wù)器側(cè)插件模塊209的可視創(chuàng)作頁面的現(xiàn)有應(yīng)用程序創(chuàng)作頁面中?？丶?6為客戶機設(shè)備30 的用戶提供了一種新形式的交互(即識別和/或可聽提示)，而同時重復(fù)使用了可視控件的應(yīng)用程序邏輯和可視輸入/輸出能力。考慮到控件306可以與對應(yīng)用程序邏輯進行編碼的可視控件306相關(guān)聯(lián)，因此下文中可以將控件306稱為"伴隨控件 (companion control) 306"，而可以將可視控件302稱為"主控件302"。應(yīng)該注意這些稱謂僅是出于區(qū)分控件302和306的目的而提供的，而非旨在限制。例如，伴隨控件306可以用于開發(fā)或創(chuàng)作不包括可視呈現(xiàn)的網(wǎng)站，諸如僅話音的網(wǎng)站。在這種情況下，某些應(yīng)用程序邏輯可以被包含在伴隨控件邏輯中。
在圖6中示出了一組示例性伴隨控件400。在該實施例中，伴隨控件400 —般包括QA控件402、命令控件404、比較證實器控件406、自定義證實器控件408 和語義映射圖410。語義映射圖410被示意性地示出，并包括可被認(rèn)為是輸入字段的語義項412，該語義項形成了可視域主控件402 (例如HTML)和伴隨控件400
的非可視識別域之間的層。
QA控件402包括Prompt (提示)屬性，該屬性引用Prompt對象以執(zhí)行輸出控件的功能，即為人類對話提供"提示"客戶機側(cè)標(biāo)記，這通常涉及播放預(yù)先錄制的音頻文件、或用于文本一語音轉(zhuǎn)換的文本、直接包括在標(biāo)記中或經(jīng)由URL引用的數(shù)據(jù)。同樣地，輸入控件被具體化為QA控件402和命令控件404，并且也跟隨人類對話且包括Prompt屬性(引用Prompt對象)和Answer (回答)屬性(引用至少一個Answer對象)。QA控件402和命令控件404兩者都將語法與來自客戶機設(shè)備30的用戶的期望或可能的輸入相關(guān)聯(lián)。
此時，提供對每個控件的簡短描述會是有幫助的。
QA控件
一般地，QA控件402通過所示的屬性可以執(zhí)行以下功能中的一個或多個提供輸出可聽提示、收集輸入數(shù)據(jù)、執(zhí)行輸入結(jié)果的置信度證實、允許確認(rèn)輸入數(shù)據(jù) 以及協(xié)助控制網(wǎng)站處的對話流等。換言之，QA控件402包含用作對特定話題的控
制的屬性。
與其他控件一樣，QA控件402在web服務(wù)器202上執(zhí)行，這意味著它是使用服務(wù)器側(cè)標(biāo)記形式(ASP、 JSP等)在web服務(wù)器上所保持的應(yīng)用程序開發(fā)網(wǎng)頁上定義的，但是作為一不同形式的標(biāo)記輸出到客戶機設(shè)備30。雖然在圖6中示出，其中QA控件看似是由所有屬性Prompt、 Reco (記錄)、Answer、 ExtraAnswer (額外回答)和Confirm (確認(rèn))組成的，但應(yīng)該理解這些僅僅是選項，QA控件可以包括其中的一個或幾個。
此時，按照應(yīng)用情形來解釋QA控件的使用會是有幫助的。參考圖6，在僅話音應(yīng)用中，QA控件402可以用作對話中的問題和答案。問題可以由Prompt對象提供，而通過Grammar對象來定義語法，用于識別輸入數(shù)據(jù)和對該輸入的相關(guān)處理。Answer屬性使用Answer對象將識別出的結(jié)果與語義映射圖410中的語義項 412相關(guān)聯(lián)，它包含關(guān)于如何處理識別結(jié)果的信息。線414表示將QA控件402與語義映射圖410及其中的語義項412相關(guān)聯(lián)。許多語義項412個別地與可視或主控件302相關(guān)聯(lián)，如線418所示，雖然一個或多個語義項412可以不與可視控件相關(guān) 聯(lián)并且僅內(nèi)部使用。在多模情形中，其中客戶機設(shè)備30的用戶可例如以"輕叩事件(TapEvent)"觸摸可視文本框，則可聽提示不是必須的。例如，對于包含具有形成關(guān)于客戶機設(shè)備的用戶應(yīng)該將什么輸入到對應(yīng)的域中的指示的視頻文本的文本框的主控件，相應(yīng)的QA控件402可以有或沒有諸如音頻回放或文本一語音轉(zhuǎn)換等相應(yīng)提示，但會具有對應(yīng)于供識別的期望值的語法，以及處理輸入或處理諸如沒有檢測到語音、未識別語音等其他識別器事件或在超時的時候激發(fā)的事件的事件處理程序。
在另一實施例中，識別結(jié)果包括指示所識別出的結(jié)果是正確的置信度水平的置信度水平度量。也可以在Answer對象中指定確認(rèn)閾值，例如置信度水平閾值等于0.7。如果置信度水平高于相關(guān)聯(lián)的閾值，就認(rèn)為該結(jié)果被確認(rèn)。
也應(yīng)該注意，除此之外或者作為替代，為了指定用于語音識別的語法，QA控件和/或命令控件可以響應(yīng)于提示或問題來指定Dtmf (雙音調(diào)頻)語法以識別電話鍵的激活。
此時，應(yīng)該注意當(dāng)填充語義映射圖410的語義項412時，通過例如語音或Dtmf 的識別，可采取幾種動作。首先，可以發(fā)出或激發(fā)指示值已被"改變"的事件。取決于是否滿足置信度水平，可以發(fā)出或激發(fā)的另一事件包括指示對應(yīng)的語義項已被確認(rèn)的"確認(rèn)"事件。這些事件用于控制對話。
Confirm屬性也可以包括具有類似于以上關(guān)于Answer屬性描述的結(jié)構(gòu)的 Answer對象，該類似性表現(xiàn)在它與語義項412相關(guān)聯(lián)，并可在需要時包括一置信度閾值。Confirm屬性本身并不旨在獲取識別結(jié)果，而是確認(rèn)已經(jīng)獲取的結(jié)果并從用戶處查明所獲取的結(jié)果是否正確。Confirm屬性是用于斷言先前獲取的結(jié)果的值是否正確的Answer對象的集合。所包含的QA的Prompt對象會查詢這些項，并從相關(guān)聯(lián)的語義項412處獲取識別結(jié)果，并在諸如"您說了西雅圖嗎？"等問題中形成該結(jié)果。如果用戶使用諸如"是"等確定來響應(yīng)，則激發(fā)己確認(rèn)事件。如果用戶使用諸如"不是"等否定來響應(yīng)，則清除相關(guān)聯(lián)的語義項412。
Confirm屬性也可以在向用戶提供了確認(rèn)提示后接受改正。例如，響應(yīng)于確認(rèn) 提示"您說了西雅圖嗎？"，用戶可以用"舊金山"或"不是，舊金山"來響應(yīng)，
16在任一情況下，QA控件接收到改正。有了關(guān)于通過Answer對象正在確認(rèn)哪個語義項的信息，就可以將該語義項中的值替用經(jīng)改正的值來替換。還應(yīng)該注意，如有所需，確認(rèn)也可以被包括在對信息的進一步提示中，諸如"您希望何時去西雅圖？"，其中系統(tǒng)的提示包括對"西雅圖"的確認(rèn)以及對出發(fā)日的進一步提示。提供對目的地地點的改正的用戶響應(yīng)會激活Confirm屬性來改正相關(guān)聯(lián)的語義項，而僅有觸發(fā) 日的響應(yīng)將提供對目的地的隱含確認(rèn)。
ExtraAnswer屬性允許應(yīng)用程序作者指定除了已經(jīng)作出的提示或査詢之外用戶可提供的Answer對象。例如，如果面向旅行的系統(tǒng)就目的地城市提示用戶，但是用戶通過指示"西雅圖明天"來響應(yīng)，則將重現(xiàn)最初提示用戶的Answer屬性，并由此將目的地城市"西雅圖"與一適當(dāng)?shù)恼Z義項綁定，而ExtraAnswer屬性可以將"明天"作為接下去的一天(假設(shè)系統(tǒng)知道當(dāng)天)來處理，并且由此將這個結(jié)果與語義映射圖中適當(dāng)?shù)恼Z義項綁定。ExtraAnswer屬性包括為用戶也可能聲明的可能的額外信息定義的一個或多個Answer對象。在以上提供的示例中，在也已經(jīng)檢索到了關(guān)于出發(fā)日的信息之后，假設(shè)置信度水平超過相應(yīng)的置信度閾值，系統(tǒng)于是無需再就這個信息來重新提示用戶。如果置信度水平?jīng)]有超過相應(yīng)的閾值，則激活適當(dāng)?shù)腃onfirm屬性。
命令控件
命令控件404是在僅話音對話中常見的用戶說話，它通常在所提的問題方面具有極小的語義重要性，而是尋求協(xié)助或?qū)崿F(xiàn)導(dǎo)航，例如幫助、取消、重復(fù)等。命令控件404可包括用于指定Prompt對象的Prompt屬性。此外，命令控件404不僅可用于指定語法(通過Grammar屬性)和對識別的相關(guān)聯(lián)的處理(有點類似于沒有將結(jié)果綁定到語義項的Answer對象)，而且還可用于指定上下文的'范圍'和類型。這允許對客戶機側(cè)標(biāo)記上全局和上下文敏感行為的創(chuàng)作。命令控件404允許諸如"幫助"命令等其他類型的輸入，或者允許客戶機設(shè)備的用戶導(dǎo)航到網(wǎng)站的其他選定區(qū)域的命令。
比較證實器控件
比較證實器控件根據(jù)一運算符來比較兩個值，并采取適當(dāng)?shù)膭幼?。要比較的值可以是任何形式的，諸如整數(shù)、文本串等。比較證實器控件包括指示要證實的語義項的屬性SematicItemtoValidate (要證實的語義項)。可將要證實的語義項與一常數(shù)或另一語義項進行比較,其中該常數(shù)或其他語義項分別由屬性ValuetoCompare (要比較的值)和SematicItemtoValidate提供。與比較證實器相關(guān)聯(lián)的其他參數(shù)或屬性包括用于定義要進行的比較的Operator (運算符)，和定義值的類型(例如整數(shù)或語義項串)的Type (類型)。如果與比較證實器控件相關(guān)聯(lián)的證實失敗，則Prompt屬性可以指定一可被播放的Prompt對象，從而指示用戶，所獲取的結(jié)果是不正確的。如果在比較時證實失敗，則由要證實的語義項定義的相關(guān)聯(lián)的語義項被指示為空，以使系統(tǒng)將就正確的值重新提示用戶。然而，在不正確的值會被用于重復(fù)該不正確值的對用戶的提示中的情況下，不清除語義映射圖中的相關(guān)聯(lián)語義項的不正確值會是有用的。取決于應(yīng)用程序程序作者的期望，可以在相關(guān)聯(lián)的語義項的值改變值時，或者在值已被確認(rèn)時觸發(fā)比較證實器控件。自定義證實器控件自定義證實器控件類似于比較證實器控件。屬性SematicItemtoValidate指示要證實的語義項，而屬性ClientValidationFunction (客戶機證實函數(shù))通過一相關(guān)聯(lián) 的函數(shù)或腳本指定了自定義證實例程。該函數(shù)可提供一關(guān)于證實是否失敗的布爾值 "是"或"否"，或者其等價物。Prompt屬性可以指定一 Prompt對象以提供對證實的出錯或失敗的指示。取決于應(yīng)用程序作者的期望，可以在相關(guān)聯(lián)的語義項的值改變值時，或者在值已被確定時觸發(fā)自定義證實器控件?？丶?zhí)行算法客戶機側(cè)腳本或模塊(本文中稱為"RunSpeech"(運行語音))被提供給客戶機設(shè)備用于圖6的控件。該腳本的目的是經(jīng)由一邏輯來執(zhí)行對話流，該邏輯當(dāng)在客戶機設(shè)備30上執(zhí)行腳本時，即當(dāng)由于腳本中包含的值而激活了涉及該控件的標(biāo) 記以便在客戶機上執(zhí)行時，在腳本中指定。腳本允許頁面請求之間的多個對話回合，由此對于諸如通過電話瀏覽器216的僅話音對話的控制特別有用。客戶機側(cè)腳本 RunSpeech以循環(huán)的方式在客戶機設(shè)備30上執(zhí)行，直至提交了完整的表單，或者是從客戶機設(shè)備30請求了新的頁面。一般地，在一個實施例中，該算法通過輸出語音和識別用戶輸入來生成對話回合。該算法的總體邏輯如下地用于僅話音環(huán)境(關(guān)于以上未討論的屬性或參數(shù)，參考2004年6月17日公布的題為"Web Server Controls for Web Enabled Recognition18and/or Audible Prompting，，的美國專利申請公開號US 2004/0113908):1. 以語音索引順序找出第一個活動的(如下所定義的)QA、比較證實器或自定義證實器控件。2. 如果沒有活動的控件，則提交頁面。3. 否則，運行該控件。QA在且僅在以下情況下被認(rèn)為是活動的1. QA的ClientActivationFunction (客戶機激活函數(shù))或者不存在，或者返回真，并且2. 如果Answer屬性集合為非空，則Answer集合所指向的所有語義項的狀態(tài)為空，或者3. 如果Answer屬性集合為空，則Confirm數(shù)組中的至少一個語義項的狀態(tài)為NeedsConf證aiton (需要確認(rèn))。然而，如果QA使得PlayOnce (播放一次)為真，且其提示被成功運行(到達OnComplete (在完成時))，則QA不會成為激活的候選項。 QA如下運行1. 如果這是與先前的活動控件不同的控件，則重置提示計數(shù)值。2. 遞增提示計數(shù)值。3. 如果指定了 PromptSelectFunction (提示選擇函數(shù))，則調(diào)用該函數(shù)并將Prompt的inlinePrompt (內(nèi)嵌提示)設(shè)置成返回的串。4. 如果Reco對象存在，則啟動它。該Reco應(yīng)該已包括任何活動的命令語法。證實器(比較證實器或自定義驗證器)在以下情況下是活動的1. SemanticItemToValidate還沒有被該證實器驗證，且其值已被改變。比較證實器如下運行1. 依照證實器的Operator,比較SemanticItemToCompare (要比較的語義項)或ValueToCompare (要比較的值)和SemanticItemToValidate的值。2. 如果測試返回假，則將SemanticItemToValidate的文本域置空，并播放提示。3. 如果測試返回真，則將SemanticItemToValidate標(biāo)記為經(jīng)該證實器證實。自定義證實器如下運行1. 使用SemanticItemToValidate的值來調(diào)用ClientValidationFunction(客戶機證實函數(shù))。2.如果該函數(shù)返回假，則清除語義項并播放提示，否則如由該證實器所證實的。命令在且僅在以下情況下被認(rèn)為是活動的1. 它在范圍內(nèi)，并且2. 在范圍樹的較低處沒有相同類型的另一個命令。在多模情況下，該邏輯被簡化為以下算法1. 等待觸發(fā)事件一即用戶輕叩控件；2. 收集預(yù)期回答；3. 監(jiān)聽輸入；4. 將結(jié)果綁定到語義項，或者如果沒有結(jié)果，則拋出事件；5. 返回到l。在多模環(huán)境中，應(yīng)該注意如果用戶改正了文本框或者與結(jié)果的可視表示相關(guān) 聯(lián)的其它輸入域，則系統(tǒng)可以更新相關(guān)聯(lián)的語義項以指示值已被確認(rèn)。在圖6中所示的另一實施例中，提供使得應(yīng)用程序作者能夠創(chuàng)建處理電話事務(wù)的語音應(yīng)用程序的呼叫控件407以及應(yīng)用程序控件430，后者提供了在一種控件中裝入各常見語音情形的手段。呼叫控件407和應(yīng)用程序控件430對于實施本發(fā)明而言不是必須的，但僅是為了完整性起見而提及的。對這兩個控件的進一步討論在 2004年6月17日公布的題為"Web Server Controls for Web Enabled Recognition and/or Audible Prompting"的美國專利申請公開號US 2004/0113908和于2004年11 月18日公布的題為"Application Controls for Speech Enabled Recognition"的美國專利申請公開號US 2004/0230637A1中提供。記錄用戶交互數(shù)據(jù)作為示例使用上述結(jié)構(gòu)，應(yīng)用程序開發(fā)者能夠開發(fā)啟用語音的應(yīng)用程序。然而，本文中所描述的各方面允許開發(fā)者記錄用戶交互數(shù)據(jù)或?qū)⑵溆浫肴罩?。然而，?yīng)該理解，本文中所描述的概念不限于上述用于提供對話，模型的對話創(chuàng)作結(jié)構(gòu)，而是可以被應(yīng)用于生成對話模型的任何創(chuàng)作工具，諸如但不限于被實現(xiàn)為中間件、API (應(yīng)用程序接口)等，并且被配置成記錄部分或全部以下描述的信息的那些工具。此外，諸如電話應(yīng)用程序等啟用語音應(yīng)用程序的功能性質(zhì)及其話音用戶接口的細(xì)節(jié)可以在域和應(yīng)用程序類型之間有較大的不同，由此任何啟用的自動化日志記錄一般僅是啟試探性的，而非確定性的。因此，對此的一個實現(xiàn)可能是將自動化日志記錄事件屬性實現(xiàn)為可覆蓋的默認(rèn)值，而非不可改變的屬性。然而，對豐富信息的日志記錄的簡化和促進相對于依賴于手動和程序性創(chuàng)作的系統(tǒng)仍然是很大的進步。再參考圖4，當(dāng)為任何類型的用戶執(zhí)行應(yīng)用程序(諸如但不限于經(jīng)由移動設(shè)備30或經(jīng)由電話80訪問)時，依照對話控件211執(zhí)行啟用語音的應(yīng)用程序的web服務(wù)器202將用戶交互日志數(shù)據(jù)記錄在存儲217中。如所需地，應(yīng)用程序通常，而不是專門地被定義或編寫為一組分層控件，此處通常例示為結(jié)合命令控件404的QA控件402、應(yīng)用程序控件430、呼叫控件407 和證實器406和408。該分層結(jié)構(gòu)定義了要完成的總體任務(wù)，以及完成該總體任務(wù) 的其子任務(wù)。該分層結(jié)構(gòu)中的層數(shù)取決于應(yīng)用程序的復(fù)雜程度。例如，應(yīng)用程序可以總體地針對作出機票預(yù)定(即，最高層任務(wù))，而兩個主要的子任務(wù)針對獲取出發(fā)信息和到達信息。同樣，可以為獲取出發(fā)信息和獲取到達信息的主要子任務(wù)中的每一個定義進一步的子任務(wù)，具體地，為獲取出發(fā)/到達機場信息、出發(fā)/到達時間等。這些子任務(wù)可能在包含它們的任務(wù)中以一序列出現(xiàn)。一般地，記錄兩種類型的數(shù)據(jù)，任務(wù)/對話數(shù)據(jù)和回合數(shù)據(jù)。從任務(wù)/對話數(shù)據(jù) 開始，如在日志中表示的該數(shù)據(jù)應(yīng)該按照任務(wù)和子任務(wù)來捕捉應(yīng)用程序的分層或順序結(jié)構(gòu)。圖7示出了用于創(chuàng)建應(yīng)用程序的方法500。在502處，對話創(chuàng)作工具允許按照嵌套或順序的任務(wù)單元來創(chuàng)作或定義對話，使得當(dāng)開發(fā)者編寫啟用語音的應(yīng)用程序時，作者一般會以模塊化的方式來編寫。即，會鼓勵作者將各個回合組合成一完成特定任務(wù)的集合，并且將各個任務(wù)組合成完整更高層任務(wù)的集合。由于在設(shè)計時任務(wù)結(jié)構(gòu)和進出各個任務(wù)的流是已知的，因此在步驟504處，啟用對進出任務(wù)(例如通過任務(wù)開始和任務(wù)完成事件)以及從用戶處獲取的用于由應(yīng)用程序使用的輸入域的回合數(shù)據(jù)和值(在本文中被例示為"語義項")的日志記錄，以提供對任務(wù)結(jié) 構(gòu)的序列和/或分層結(jié)構(gòu)的自動化日志記錄。這意味著對話流、獲取的值和任務(wù)結(jié) 構(gòu)可以從事件日志中明確地恢復(fù)和構(gòu)建。應(yīng)該注意，僅出于解釋的目的單獨示出了步驟502和504，這些步驟的部分或全部特征可以用不同的順序或并發(fā)地執(zhí)行。該數(shù)據(jù)還量化了完成任何給定任務(wù)或子任務(wù)的成功、失敗或其他(例如，未知)狀態(tài)。此外，任務(wù)/對話數(shù)據(jù)包括任務(wù)不成功或失敗的原因，或者其完成狀態(tài) 未知的原因，或者如果適用，在可能有多個繼續(xù)進行的原因的情況下的繼續(xù)進行的原因。其他數(shù)據(jù)可以包括指示用戶是否沒有提供響應(yīng)或者語音識別器不能識別出話語的進展數(shù)據(jù)。還可以記錄輸入域值的列表，或應(yīng)用程序?qū)谔崾净蛴脩繇憫?yīng)或其狀態(tài)或與其相關(guān)聯(lián)的值所使用的存儲位置。圖8示出了用于執(zhí)行啟用語音的應(yīng)用程序的方法520。方法520包括在步驟 522處執(zhí)行按照具有一個或多個回合的任務(wù)來定義的啟用語音的應(yīng)用程序。步驟 524包括記錄與任務(wù)、回合和語義項相關(guān)的信息。應(yīng)該注意，僅出于解釋的目的單獨示出了步驟522和524，這些步驟的部分和全部特征可以用不同的順序或并發(fā)地執(zhí)行。在一個實施例中，任務(wù)/對話數(shù)據(jù)包括部分或全部以下的信息任務(wù)/對話數(shù)據(jù)名稱作者定義的用于任務(wù)/對話的串標(biāo)識符，例如"getCreditCardlnfo (獲取信用卡信息)"、"ConfirmTmvel (確認(rèn)旅行)"等。如果作者在設(shè)計時沒有提供名稱，則給出默認(rèn)名稱，例如Dialogl (對話1) 、 Dialog2 (對話2) 、 DialogN (對話N)……父包含該任務(wù)/對話的對話的名稱(為了從日志重構(gòu)對話分層結(jié)構(gòu))任務(wù)開始首次進入任務(wù)/對話的時間戳任務(wù)完成退出任務(wù)/對話的時間戳。對于任何打開的對話，在使用默認(rèn)值關(guān) 閉應(yīng)用程序時總是應(yīng)該從下到上激發(fā)該事件(即，在日志中不會有"在結(jié)束時仍打開"對話)。狀態(tài)任務(wù)/對話的完成狀態(tài)，可由作者設(shè)置、基于對話的執(zhí)行自動推斷、或者基于作者定義的條件半自動地設(shè)置。在一個實施例中，默認(rèn)值狀態(tài)可以是 "UNSET (未設(shè)置)"，其中后續(xù)值可以是以下之一SUCCESS (成功) FAILURE (失敗) UNKNOWN (未知)自動任務(wù)完成狀態(tài)在某些情況下，如上所述，可以從任務(wù)退出的性質(zhì)中以合理的確定性推斷出任務(wù)的狀態(tài)是否為成功、失敗或未知中的一個。例如，由于出錯或異常而結(jié)束的任務(wù)可以被自動地以完成狀態(tài)Failure記入日志。同樣地，取消的任務(wù)(例如其中對任務(wù)對象調(diào)用Cancel ()方法)可以自動地以完成狀態(tài)Failure記入日志。類似地，由于達到了某一"出局"(例如以下討論的MaxSilence (最大無聲)或MaxNoReco(最大無記錄))計數(shù)而結(jié)束的任務(wù)會自動地以完成狀態(tài)Failure記入日志。相反地，以該任務(wù)中遇到，或者在設(shè)計時被指定為屬于該任務(wù)的、具有基礎(chǔ) (grounded)(用戶輸入或從中導(dǎo)出的)值的回合的所有語義項(即應(yīng)用程序的輸入域)自然結(jié)束(即沒有被取消)的任務(wù)會被自動地以完成狀態(tài)Success記入曰志。半自動任務(wù)完成任務(wù)狀態(tài)日志記錄的部分自動化也是有用的。對于給定的任務(wù)，作者可以在步驟502處指定或定義針對任務(wù)成功或失敗的一組條件，如果滿足這些條件，則確定該任務(wù)在退出時的任一點上的狀態(tài)。條件可以是程序性的(例如fo(^」bar')，或者更有用地，可以簡化條件，使得作者只需要為每個任務(wù)指定一個或多個語義項 (例如為出發(fā)城市和到達城市提供的值)，且當(dāng)那些語義項具有確認(rèn)的值時系統(tǒng)會自動將Success記入日志，并且可任選地，當(dāng)那些語義項不具有確認(rèn)的值時將Faiulre 記入日志。這個方面是有用的省時機制，因為它意味著任務(wù)狀態(tài)日志記錄無需在任務(wù)的每個退出點上程序性地編碼。相反，只要最終用戶退出任務(wù)，就自動地評估條件，并且確定狀態(tài)且將其記入日志而無需額外的開發(fā)者代碼。原因?qū)υ捦瓿傻脑?，可以由作者設(shè)置，例如命令一用戶說出的用于改變到對話的不同部分的命令以及命令的性質(zhì)(即 "取消"、"運算符"、"主菜單"等)；用戶掛斷一用戶掛斷，或者用其他方式退出或放棄；應(yīng)用程序出錯) 一發(fā)生應(yīng)用程序出錯最大無記錄(maxNoReco) —達到未識別的話務(wù)的最大數(shù)最大無聲(maxSilence) —達到無聲用戶響應(yīng)的最大數(shù)語義更新項任何其值/狀態(tài)有改變的語義項的列表，包括新的值和對應(yīng)的狀態(tài)。一般地，該數(shù)據(jù)與以下所述的回合數(shù)據(jù)相關(guān)，這表現(xiàn)在對于每個對話回合(由應(yīng)用程序 /響應(yīng)或用戶沒有響應(yīng)來提示)，語義項值和/或狀態(tài)中的一個或多個會改變。然而，在某些情況中，應(yīng)用程序自身能夠改變語義項。例如，如果應(yīng)用程序不能證實諸如信用卡卡號等值，那么它自己可以清除該值，而無需基于對話回合來清除。然而，這一改變會被記錄。23回合數(shù)據(jù)包括與應(yīng)用程序的直接交互，并且基于由應(yīng)用程序提供的提示(當(dāng) 未預(yù)期響應(yīng)時)、或者與用戶響應(yīng)或沒有響應(yīng)相關(guān)的應(yīng)用程序提示來組織，換言之，提示/響應(yīng)交換或者用戶提供的命令并非必須響應(yīng)提示，或者至少是未預(yù)期是對提示的響應(yīng)的響應(yīng)。因此，可以記錄的數(shù)據(jù)的三個區(qū)域包括與應(yīng)用程序提供的提示相關(guān)的信息、用戶提供的響應(yīng)(可以是預(yù)期的或非預(yù)期的響應(yīng))以及系統(tǒng)確定的識別結(jié)果。在一個實施例中，回合數(shù)據(jù)包括以下信息的部分或全部回合數(shù)據(jù) 配置名稱作者定義的串標(biāo)識符。如果作者在設(shè)計時沒有提供名稱，則可給出默認(rèn)名稱；然而，需要清楚且一致地在同一對話/任務(wù)中的不同回合之間進行區(qū) 分。一種可能的技術(shù)是基于提示的名稱和類型。類型可以從與之相關(guān)聯(lián)的語義項的性質(zhì)推斷出特定回合的目的的詳細(xì)說明。在上述情況下，語義項通過回答、額外回答和確認(rèn)的概念與回合相關(guān)聯(lián)?；睾夏康牡氖纠ㄒ笮碌拇_認(rèn)(回合啟用回答)確認(rèn)相關(guān)信息(接受/拒絕，回合啟用確認(rèn))給出信息聲明(回合沒有回答和確認(rèn))。父包含該配置的對話/任務(wù)的名稱(為了從日志中重構(gòu)對話分層結(jié)構(gòu))。語言所使用的語言。語音語法與所使用的語音識別語法相關(guān)的信息。DMTF語法與使用的DMTF識別語法相關(guān)的信息。閾值用于拒絕值和/或確認(rèn)值的置信度閾值超時允許提示后初始無聲和用于確定響應(yīng)的結(jié)束的結(jié)束無聲的時間段，以及認(rèn)為聲音模糊不清的時間段提不名稱可任選，由于可以使用回合數(shù)據(jù)名稱，可以不是必需的。類型對話模型可以包括多個預(yù)定義的提示類型，其中任何一個可以由應(yīng) 用程序選擇，對它的使用允許記錄系統(tǒng)試圖作什么來實現(xiàn)，即回合的目的。提示類型的示例包括主提示(MainPrompt)—提出問題(或給出聲明)幫助提示(HelpPrompt)—提供幫助重復(fù)提示(RepeatPrompt) —重復(fù)信息內(nèi)容無識別提示(NoRecognitionPrompt) —響應(yīng)"無識別" 無聲提示(SilencePrompt)—響應(yīng)無聲升級的無識別提示(EscalatedNoRecognitionPrompt) —在多次嘗試后響應(yīng) "無識別"升級的無聲提示(EscalatedSilencePrompt) —在多次嘗試后響應(yīng)無聲由于這些類型是預(yù)定義的，且在任何時候可用于選擇，因此它們可以按照類型自動地記入日志，這使用給定提示的目的的概念自動地豐富了日志數(shù)據(jù)以達到回合的目標(biāo)。因此，提示類型與回合類型相結(jié)合一在對話創(chuàng)作模型中它們都是編程原語，因此當(dāng)應(yīng)用程序遇到時被自動地記入日志一允許在日志中任一點處的系統(tǒng)目的的豐富視圖。語義項進行相關(guān)提示的語義項(用于鏈接詢問/確認(rèn)循環(huán)等)。對話模型使用語義項的概念，每個語義項含有值和狀態(tài)，以便簡化對話流創(chuàng)作。通過自動地將每個語義項的改變值和狀態(tài)記入日志，并將其與任務(wù)和用戶/系統(tǒng)移動信息組合，進一步豐富了日志?；卮?額外回答/確認(rèn)模型將語義項鏈接到回合，因此鏈接到任務(wù)。因此，所知的是(且可以被自動地記入日志)，哪個語義項與哪個系統(tǒng)移動和哪個用戶移動相關(guān)，以及哪個有助于哪個任務(wù)。提示的文本內(nèi)容例如"歡迎"插嘴(bargein):開/關(guān)/中間提示時間用戶察覺的等待時間用戶響應(yīng)和播放下一提示之間的時間段。當(dāng)系統(tǒng)負(fù)荷較重時，該時間段可能較長，這會使得用戶混淆，因為用戶可能相信應(yīng)用程序沒有響應(yīng)。TTS:真/假一用于生成提示的文本一語音。提示完成時間完成/切斷提示的時間。提示波文件提供的實際提示。用戶輸入模式用戶是提供DTMF還是語音類型用戶是否提供命令，如果是，是什么類型的(例如幫助/重復(fù)/等)，或者用戶是否提供響應(yīng)，如果是，是什么類型的(回答/確認(rèn)/拒絕)
對話模型將應(yīng)用程序的語法的功能分類到不同類型的用戶響應(yīng)，即回答、接受、拒絕等，這些用戶響應(yīng)指示用戶提供響應(yīng)的目的。這些類型可以直接被記入日志，作為系統(tǒng)相信用戶正試圖完成事件的指示符。不同響應(yīng)類型的示例如下
回答一用戶向請求值的問題提供回答。額外回答一用戶提供問題焦點之外的回答。
接受一用戶確認(rèn)一條信息。拒絕一用戶拒絕一條信息。幫助命令一用戶要求幫助。重復(fù)命令一用戶請求信息的重復(fù)。
其他命令一用戶發(fā)出某種其他形式的命令(沒有明確地歸類，但是知道它
不是上述類型中的任一種)。
無聲—用戶沒有說話(這有時被用作一種形式的'隱式接受') 由于這些類型與特定的語法相關(guān)聯(lián)，因此只要用戶說出任何與相應(yīng)語法匹
配的話，就可以自動地將它們記入日志。許多系統(tǒng)允許單個對話回合包括多種
類型一例如在單個回合中接受一個以上項，或者回答一個項并接受另一個。無聲如果檢測到無聲，相對于最大無聲它是哪個數(shù)字或計數(shù)。無記錄(NoReco):如果對該話語沒有檢測到識別，相對于最大無記錄它
是哪個數(shù)字或計數(shù)。
出錯如果發(fā)生出錯，它是否會被應(yīng)用程序或平臺拋出。
結(jié)果
識別結(jié)果系統(tǒng)返回識別結(jié)果。通常，識別結(jié)果包括用于經(jīng)解釋的話語的語義標(biāo)記語言(SML)標(biāo)簽。此外，在適當(dāng)時可以提供N個最佳的備選解釋和音頻記錄結(jié)果。除了每個解釋之外
沒有SML標(biāo)簽的話語文本(如果提供語音)或者按鍵(如果提供DTMF)。置信度解釋的置信度水平。
語義映射SML結(jié)果的各部分和語義項之間的鏈接。換言之，來自SML 結(jié)果中的哪個值會被置于哪個語義項中。
語法規(guī)則匹配語法中的哪條規(guī)則與用戶輸入匹配。
26置信度作為整體的話語。
插嘴用戶插嘴的定時，或為空(如果不存在插嘴)。
識別波文件實際記錄的用戶輸入和指向它的指針。總之，記入日志的用戶交互數(shù)據(jù)允許將對話看作在感興趣的某些域(例如表單域或槽值)上操作的任務(wù)的分層或順序結(jié)構(gòu)，并且任務(wù)中的每個對話回合將有關(guān) 表單域的系統(tǒng)目的(對話移動)(例如詢問值、確認(rèn)它、重復(fù)它等)以及語音識別器相信是用戶目的的內(nèi)容(例如提供值、拒絕它、尋求幫助等)記入日志。
使用該結(jié)構(gòu)來實現(xiàn)實施優(yōu)勢。具體地，對系統(tǒng)性能的分析得到改進，因為任務(wù)完成的成功或失敗一般是明確的，因此很大程度上簡化了報告的事務(wù)成功率，并且能更好地理解完成任務(wù)所采取的對話步驟的性質(zhì)(因為在創(chuàng)作時每個步驟背后的目的是己知的)。
由于其結(jié)合到對話創(chuàng)作工具中的方式，實現(xiàn)這種形式的數(shù)據(jù)日志記錄是簡便的。這種裝備的高層性質(zhì)對于各種各樣的應(yīng)用程序類型是通用的，并且日志記錄的實際細(xì)節(jié)在創(chuàng)作時通過其在概念上以及對于日志記錄原語集成到創(chuàng)作工具中而變得容易。由此，鼓勵了應(yīng)用程序作者使用任務(wù)/子任務(wù)模型來構(gòu)造應(yīng)用程序，并且指示從任務(wù)出發(fā)的哪些轉(zhuǎn)換指示成功完成，且它們無需明確地裝備系統(tǒng)/用戶目的日志記錄，因為那被構(gòu)建到會話回合創(chuàng)作模型中。
對話分析
以下描述一般地參考任務(wù)層上的分析；然而，所有的原理都適用于任務(wù)和會話層兩者上(即，將會話作為單個任務(wù)來分析，其中較低層的任務(wù)結(jié)構(gòu)化是未知的或被忽略)。
參考圖9，對話分析模塊600接收諸如上述的輸入的記入日志的應(yīng)用程序數(shù) 據(jù)，并對其執(zhí)行分析。一般地，出于解釋的目的，對話分析模塊600可包括較差任務(wù)性能診斷模塊602、混亂提示分析模塊604以及用于標(biāo)識對話問題的源的模塊 606。雖然可以將它們有利地結(jié)合使用，但每個過程或模塊可以獨立于其他來使用。以下可以提供指示各度量的報告或其他適當(dāng)?shù)妮敵?。如果適用，可以在任務(wù)的基礎(chǔ) 上提供度量。 1.診斷較差任務(wù)性能
圖10的較差任務(wù)診斷模塊602及其相應(yīng)的過程603揭示或標(biāo)識應(yīng)用程序中應(yīng) 該被分析或調(diào)整的較差執(zhí)行的部分，和/或提出較差性能的原因。它在步驟605處從記入日志的數(shù)據(jù)分析每個會話或任務(wù)(任務(wù)是包含對話回合、子任務(wù)或兩者的對話的結(jié)構(gòu)化組件)，并且在步驟607處推斷'任務(wù)可用性，的度量。這一度量，尤其是以下描述的度量是基于用于完成任務(wù)的對話移動序列的模式(由例如回合類型或響應(yīng)類型指示)的對用戶體驗的成功的指示符。
過程603可用于獨立于或者結(jié)合任務(wù)成功/失敗的顯式指示符和記入日志的數(shù)
據(jù)中存在的其他度量來使用。這些指示符是顯式應(yīng)用程序裝備的結(jié)果，它確定當(dāng)任務(wù)完成時應(yīng)該如何將其狀態(tài)記入日志(通常為值成功/失敗/未知)以及如何使用這些狀態(tài)來生成關(guān)于總體任務(wù)完成率的報告。其他顯式指示符包括原始回合計數(shù)以及
持續(xù)時間。單獨使用時，顯式指示符對任務(wù)的用戶經(jīng)驗有極少的洞察；然而，此處所描述的分析提供了較深的洞察。這對于跨所有任務(wù)(從那些具有較低的完成率的任務(wù)到具有較高的完成率的任務(wù))；來評估任務(wù)性能是有價值的，因為它提供了任務(wù)效率和可用性的度量。這些可用于預(yù)測總體任務(wù)性能的可能原因和/或用作提高性能和優(yōu)化用戶體驗的度量。
以下度量中的一個、一些或所有可以跨用于分析的數(shù)據(jù)集從給定任務(wù)的所有實例中計算出。
確認(rèn)評分
模塊610在步驟611處獲取涉及關(guān)于接收到的響應(yīng)的確認(rèn)的回合與有關(guān)要求接收到的響應(yīng)的回合之比的指示。在示例性實施例中，模塊610計算確認(rèn)評分，它是指示"確認(rèn)"回合與"請求"回合之比的值。例如，可以通過將"確認(rèn)"回合數(shù) 相加，并將其除以"請求"回合數(shù)來計算該比率。這樣，確認(rèn)比"1"指示在任務(wù)
中請求和確認(rèn)數(shù)相等。一般地，較低的比率(使用該示例)會指示更高效的對話交互(雖然某些應(yīng)用程序會要求交易推斷出每個請求的顯式驗證)。較高的確認(rèn)水平的原因(即比期望的發(fā)生更多的"確認(rèn)")會可示較差的設(shè)計的對話流、次優(yōu)的置信度閾值和/或語法問題。如本領(lǐng)域的技術(shù)人員所理解的，可以使用用于"確認(rèn)" 與"請求"作比較的不同度量。但是，一般底，歸一化(例如使用用于確定評分的比率)會是有利的，因為它允許人們將一個任務(wù)相對于另一個任務(wù)作比較，而不考慮每個任務(wù)的提示和答案的數(shù)目會不同的這一事實。
語義項回合評分
模塊612在步驟613處獲取涉及關(guān)于請求接收到的響應(yīng)的回合與其中對響應(yīng)的請求跨數(shù)據(jù)出現(xiàn)的任務(wù)實例之比的指示。在所示實施例中，模塊612計算語義項或響應(yīng)回合評分，它是在每個語義項(SI)的基礎(chǔ)上通過將該SI的請求回合數(shù)求和并將其除以其中對語義項的請求跨數(shù)據(jù)出現(xiàn)的任務(wù)實例數(shù)來計算的(如這里所使
用的，語義項記錄了由用戶提供的響應(yīng))。通過在語義項的基礎(chǔ)上計算該評分，給出了對獲取特定語義項的值的困難的洞察一較高的比率指示作出了多次嘗試來請求項；較低的值表示較少的嘗試。
示例可以是該過程標(biāo)識難以在不失敗的情況下獲取信用卡號，因為用戶必須一次提供全部的多個數(shù)字。例如，取決于應(yīng)用程序，這種提示可能在對話中的多個位置處出現(xiàn)；然而使用相同的語義項。如果是這種情況，則解決方案可以是向用戶請求信用卡號的較小集合。
應(yīng)該注意，如有所需，對于具有多個SI (來自用戶的響應(yīng))的任務(wù)，可以計算單個有代表性的評分作為所有各個SI回合評分的平均數(shù)。
語義項有效性評分
模塊614在步驟615處獲取涉及關(guān)于確認(rèn)接收到的響應(yīng)的回合與基于接收到的響應(yīng)分配的值之比的指示。在所示實施例中，模塊614計算語義項或響應(yīng)有效性評分，它可在每個響應(yīng)或語義項(SI)的基礎(chǔ)上通過將確認(rèn)了 SI的值的次數(shù)相加并將其除以將值分配給該SI的總次數(shù)來計算。該評分給出對用于獲取語義項的任務(wù)的效率的洞察一這是否則可能由于較高的回合計數(shù)或確認(rèn)評分而變得不明顯的洞察。語義項有效性評分的較髙值表示較高的接受率；而較低的值表示較高的拒絕率。應(yīng)該注意，如有所需，對于具有多個SI (來自用戶的響應(yīng))的任務(wù)，可以計算單個有代表性的評分作為所有各個SI有效性評分的平均數(shù)。
用戶重復(fù)率
模塊616在步驟617處獲取涉及基于用戶請求用戶重復(fù)回合的指示。在所示實施例中，模塊616計算用戶重復(fù)評分，它是在每個回合的基礎(chǔ)上通過將重復(fù)進入回合的次數(shù)相加(其中重新進入是由于用戶請求而非無聲或不識別而發(fā)生的)并將其除以該回合發(fā)生的總數(shù)來計算的。用戶對重復(fù)的請求通常包括命令幫助、重復(fù)和返回，但也可以包括導(dǎo)致直接重新進入當(dāng)前或前一狀態(tài)的任何命令。較高的值指示較高的重新進入水平，這意味著從該狀態(tài)開始的用戶混亂，較低的值指示較低的重新進入水平。2. 混亂提示
模塊604和相應(yīng)的過程619 (圖11)被用于獲取關(guān)于應(yīng)用程序中哪些提示造成混亂的指示。在步驟621處，對給定回合的提示接收已記入日志的數(shù)據(jù)，而在步驟623處計算出"混亂等級'，以確定是否應(yīng)該為了清楚或簡單而調(diào)整提示用語。在該示例中，該等級越高，就越有可能需要調(diào)整提示。
可以從以下發(fā)生的事件計算出示例性混亂等級
(a) 無聲計數(shù)在提示之后用戶無聲(沒有輸入)的次數(shù)；
(b) 幫助計數(shù)在提示之后用戶請求協(xié)助的次數(shù)； (C)重復(fù)計數(shù)用戶請求系統(tǒng)重復(fù)提示的次數(shù)；
(d) 拒絕率(對于類型為請求的回合)拒絕或取消語義項值(即，對提示的識別出的響應(yīng))的次數(shù)。
這各個總數(shù)對數(shù)據(jù)中提示的實例數(shù)求和。應(yīng)該注意，不同的加權(quán)因數(shù)可以應(yīng) 用于不同的組成部分(a)-(d)上。所得等級可單獨使用，或者它可以結(jié)合從反應(yīng)用戶理解響應(yīng)的時間的較低水平的識別器數(shù)據(jù)計算出的因數(shù)
(e) 響應(yīng)等待時間例如提示結(jié)束和用戶響應(yīng)開始之間的平均(或其他度量)等待時間。(這假設(shè)人們對混亂提示的響應(yīng)比不混亂的提示的響應(yīng)要慢)。應(yīng)該注意，該評分本身可以提供關(guān)于提示的混亂等級的指示。
3. 標(biāo)識對話問題的源
模塊606和相應(yīng)的過程631 (圖12)用于找出可能是造成用戶放棄任務(wù)的問
題的源的狀態(tài)。相對于識別類型來確定任務(wù)放棄。對于語音和DTMF，以下動作中的任一個可以被認(rèn)為是放棄
一用戶掛機
一取消當(dāng)前任務(wù)的用戶命令(例如"取消") 一請求轉(zhuǎn)到代理人的用戶命令(例如"操作員") 一請求轉(zhuǎn)到代理人的DTMF按鍵(例如0)
過程或方法631適用于其中己知用戶至少一次試圖與自動化系統(tǒng)交互(即在呼叫開始時，沒有嘗試放棄動作)的會話。該過程試圖找出從中可找出問題狀態(tài)的最近已知的正確狀態(tài)。該過程如下
30對于每個用戶會話，在步驟629處接收已記入日志的數(shù)據(jù)并使得任務(wù)結(jié)構(gòu)平面化，即將對話回合和/或任務(wù)進入和/或完成狀態(tài)作為狀態(tài)的一維列表來對待，該列表如步驟633處所示按時間排序；然后
在步驟635處定位放棄的點；
在步驟637處從放棄動作通過對話回合的序列反向跟蹤，直至遇到以下狀態(tài)
之一 (注意可以改變以下順序)
(a) 如果如步驟639所示遇到了帶有狀況"成功"的任務(wù)完成，則認(rèn) 為緊接著的回合狀態(tài)是問題源
(b) 如果如步驟641所示用戶接受一值，或是遇到了期間語義項達到
"確認(rèn)"狀態(tài)的任何回合，則認(rèn)為緊接著的回合狀態(tài)是問題的源
(c) 如果如步驟643所示用戶拒絕/改正一值，或是遇到了期間語義項導(dǎo)致"空"狀態(tài)或改變其值的任何回合，那么認(rèn)為其中所討論的語義項為"請求"類型的回合的話題的最接近的前一回合狀態(tài)是問題的源
(d) 如果如步驟645所示遇到用戶"返回"或在會話中實現(xiàn)追溯用戶步驟的其他命令，則采用該返回命令(或者如果在序列中，則為多個返回命令)之后的回合的名稱，并認(rèn)為在初始的返回命令之前的回合的最接近實例是問題的源；
(e) 如果如步驟647所示達到會話的開始處，則假設(shè)會話中的第一信息請求回合狀態(tài)(即第一請求或命令啟用)是問題的源；
(f) 否則，對于所有其他的回合類型，保持反向跟蹤(即返回步驟637)。結(jié)果可跨會話整理并被表示為按照造成任務(wù)放棄的可能性排列的狀態(tài)列表。
例如，在發(fā)生了76次放棄的用戶數(shù)據(jù)中，45次是在"回合A"狀態(tài)、15次是在"回合B"狀態(tài)、14次是在"回合C"狀態(tài)而2次是在"回合D"狀態(tài)。
雖然以上參考具體實施例描述了本發(fā)明，但是本領(lǐng)域的熟練技術(shù)人員應(yīng)該認(rèn) 識到可以作出形式和細(xì)節(jié)上的改變而不背離本發(fā)明的精神和范圍。
權(quán)利要求
1. 一種分析用戶和具有對話回合的交互式應(yīng)用程序之間的對話的計算機實現(xiàn)的方法(603)，其中回合包括來自系統(tǒng)的提示以及從所述用戶接收的響應(yīng)，所述方法包括接收指示應(yīng)用程序中所述系統(tǒng)和至少一個用戶之間的對話回合的信息(605)，所述回合與所述應(yīng)用程序的一個或多個任務(wù)相關(guān)；以及獲取所述應(yīng)用程序相對于所述一個或多個任務(wù)的性能的指示(607)。
2. 如權(quán)利要求1所述的計算機實現(xiàn)的方法(603)，其特征在于，獲取所述應(yīng)用程序相對于所述一個或多個任務(wù)的性能的指示(607)包括獲取涉及關(guān)于對接收到的響應(yīng)的確認(rèn)的回合與關(guān)于請求響應(yīng)的回合之比的指示(611)。
3. 如權(quán)利要求1所述的計算機實現(xiàn)的方法(603)，其特征在于，獲取所述應(yīng)用程序相對于所述一個或多個任務(wù)的性能的指示(607)包括獲取涉及關(guān)于請求接收到的響應(yīng)的回合與其中對響應(yīng)的請求跨所述信息出現(xiàn)的任務(wù)實例之比的指示(613)。
4. 如權(quán)利要求1所述的計算機實現(xiàn)的方法(603)，其特征在于，獲取所述應(yīng)用程序相對于所述一個或多個任務(wù)的性能的指示(607)包括獲取涉及關(guān)于確認(rèn) 接收到的響應(yīng)的回合與基于該接收到的響應(yīng)而分配的值之比的指示(615)。
5. 如權(quán)利要求1所述的計算機實現(xiàn)的方法(603)，其特征在于，獲取所述應(yīng)用程序相對于所述一個或多個任務(wù)的性能的指示(607)包括獲取涉及基于用戶請求的用戶重復(fù)回合的指示(617)。
6. 如權(quán)利要求1所述的計算機實現(xiàn)的方法(603)，其特征在于，獲取所述應(yīng)用程序相對于所述一個或多個任務(wù)的性能的指示(607)包括以下的兩個或多個獲取涉及關(guān)于對接收到的響應(yīng)的的確認(rèn)的回合與關(guān)于請求響應(yīng)的回合之比的指示(611);獲取涉及關(guān)于請求接收到的響應(yīng)的回合與其中對該響應(yīng)的請求跨所述信息出現(xiàn)的任務(wù)實例之比的指示(613);獲取涉及關(guān)于確認(rèn)接收到的響應(yīng)的回合與基于接收到的響應(yīng)而分配的值之比的指示(615);獲取涉及基于用戶請求的用戶重復(fù)回合的指示(617)。
7. —種分析用戶和具有對話回合的交互式應(yīng)用程序之間的對話的計算機實現(xiàn)的方法(619)，其中回合包括來自系統(tǒng)的提示以及從所述用戶接收的響應(yīng)，所述方法包括接收指示啟用語音的應(yīng)用程序中所述系統(tǒng)和至少一個用戶之間的對話回合的信息(621)，所述回合與所述應(yīng)用程序的一個或多個任務(wù)有關(guān)；以及獲取所述應(yīng)用程序中造成混亂的提示的指示(623)。
8. 如權(quán)利要求7所述的計算機實現(xiàn)的方法(619)，其特征在于，獲取所述應(yīng)用程序中造成混亂的提示的指示(623)包括獲取在所述提示之后用戶無聲的次數(shù)的指示。
9. 如權(quán)利要求7所述的計算機實現(xiàn)的方法(619)，其特征在于，獲取所述應(yīng)用程序中造成混亂的提示的指示(623)包括獲取在所述提示之后用戶請求協(xié)助的次數(shù)的指示。
10. 如權(quán)利要求7所述的計算機實現(xiàn)的方法(619)，其特征在于，獲取所述應(yīng)用程序中造成混亂的提示的指示(623)包括獲取用戶請求所述系統(tǒng)重復(fù)所述提示的次數(shù)的指示。
11. 如權(quán)利要求7所述的計算機實現(xiàn)的方法(619)，其特征在于，獲取所述應(yīng)用程序中造成混亂的提示的指示(623)包括獲取識別出的對所述提示的響應(yīng)被取消的次數(shù)的指示。
12. 如權(quán)利要求7所述的計算機實現(xiàn)的方法(619)，其特征在于，獲取所述應(yīng)用程序中造成混亂的提示的指示(623)包括獲取響應(yīng)等待時間的指示。
13. 如權(quán)利要求7所述的計算機實現(xiàn)的方法(619)，其特征在于，獲取所述應(yīng)用程序中造成混亂的提示的指示(623)包括以下的兩個或多個獲取在所述提示之后用戶無聲的次數(shù)的指示；獲取在所述提示之后用戶請求協(xié)助的次數(shù)的指示；獲取用戶請求所述系統(tǒng)重復(fù)所述提示的次數(shù)的指示；獲取識別出的對所述提示的響應(yīng)被取消的次數(shù)的指示；獲取響應(yīng)等待時間的指示。
14. 一種分析用戶與具有對話回合的交互式應(yīng)用程序之間的對話的計算機實現(xiàn)的方法(631)，其中回合包括來自系統(tǒng)的提示以及從所述用戶接收的響應(yīng)，所述方法包括接收指示啟用語音的應(yīng)用程序中所述系統(tǒng)和至少一個用戶之間的對話回合的信息(629)，所述回合與所述應(yīng)用程序的一個或多個任務(wù)有關(guān)；以及獲取所述對話中造成用戶放棄任務(wù)的問題的源的指示(635-647)。
15. 如權(quán)利要求14所述的計算機實現(xiàn)的方法(631)，其特征在于，獲取所述對話中造成用戶放棄任務(wù)的問題的源的指示包括定位指示對話回合和/或任務(wù)進入和/或任務(wù)完成的狀態(tài)的順序列表中的放棄點(635)。
16. 如權(quán)利要求15所述的計算機實現(xiàn)的方法(631)，其特征在于，任務(wù)完成包括對應(yīng)的成功指示，并且其中獲取所述對話中造成用戶放棄任務(wù)的問題的源的指示包括從所述放棄點開始通過所述順序列表反向跟蹤(637)，直至遇到帶有成功指示的任務(wù)完成(639)，其中所述問題的源的指示包括緊接著的下一回合。
17. 如權(quán)利要求15所述的計算機實現(xiàn)的方法(631)，其特征在于，識別出的響應(yīng)與所述狀態(tài)的順序列表相關(guān)，并且其中獲取所述對話中造成用戶放棄任務(wù)的問題的源的指示包括從所述放棄點開始通過所述順序列表反向跟蹤，(637)直至用戶接受識別出的響應(yīng)，或期間識別出的響應(yīng)獲得確認(rèn)狀態(tài)的回合(641)，其中所述問題的源的指示包括緊接著的下一回合。
18. 如權(quán)利要求15所述的計算機實現(xiàn)的方法(631)，其特征在于，識別出的響應(yīng)被記錄并且與所述狀態(tài)的順序列表相關(guān)，并且其中獲取所述對話中造成用戶放棄任務(wù)的問題的源的指示包括從所述放棄點開始通過所述順序列表反向跟蹤(637)，直至一回合拒絕或改正記錄的識別響應(yīng)，或期間對識別響應(yīng)的定位導(dǎo)致 "空"狀態(tài)的回合，或其中已記錄的識別響應(yīng)改變其值的回合(643)，其中所述問題的源的指示包括其中響應(yīng)于請求回合接收到相應(yīng)的己記錄的識別響應(yīng)的最接近的前一回合。
19. 如權(quán)利要求15所述的計算機實現(xiàn)的方法(631)，其特征在于，識別出的響應(yīng)被記錄并且與所述狀態(tài)的順序列表相關(guān)，并且其中獲取所述對話中造成用戶放棄任務(wù)的問題的源的指示包括從所述放棄點開始通過所述順序列表反向跟蹤(637)，直至所述用戶提供追溯用戶步驟的命令(645)，接著查明所述命令之后的回合的指示，其中所述問題的源的指示包括對應(yīng)于所述回合的所述指示的、并且在追溯用戶步驟的命令之前的回合，作為所述問題的源。
20. 如權(quán)利要求15所述的計算機實現(xiàn)的方法(631)，其特征在于，獲取所述對話中造成用戶放棄任務(wù)的問題的源的指示包括從所述放棄點開始通過所述順序列表反向跟蹤(637)，直至達到所述會話的開始處(647)，其中認(rèn)為第一信息請求回合是所述問題的源。
全文摘要
分析過程被應(yīng)用于日志數(shù)據(jù)上，并使用諸如對話回合(用戶-系統(tǒng)交換)信息等對話移動信息來揭示和/或診斷應(yīng)用程序中最有可能的問題(圖10)。
文檔編號G10L11/00GK101536084SQ200680024305
公開日2009年9月16日申請日期2006年6月7日優(yōu)先權(quán)日2005年6月30日
發(fā)明者S·F·波特申請人:微軟公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：S.F.波特
技術(shù)所有人：微軟公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

會話分析相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

對話分析的制作方法