對話系統(tǒng)和對話控制裝置的制作方法

文檔序號：2822027閱讀：358來源：國知局

專利名稱：對話系統(tǒng)和對話控制裝置的制作方法
技術領域：
本發(fā)明涉及對話系統(tǒng)和對話控制裝置，特別適合用于用戶與機器同時采用語音和畫面進行對話的語音識別系統(tǒng)。
下面參照

互聯(lián)網(wǎng)環(huán)境中采用的上述對話系統(tǒng)。圖11表示已有技術的對話系統(tǒng)的構(gòu)成。
如圖11所示，已有技術的對話系統(tǒng)是把用戶操作的用戶終端102、語音識別字典服務器103和Web服務器104連接在互聯(lián)網(wǎng)101上而構(gòu)成。用戶終端102具有語音控制部102a、語音識別部102b和信息提示處理部102c。雖然圖示省略了，但是在用戶終端中還設置有鼠標等指向器和鍵盤等接觸輸入部。
操作用戶終端102的用戶能夠同時采用由語音識別部102b進行的語音識別、由接觸輸入部進行的接觸輸入、由語音控制部102a進行的語音輸出、由信息提示處理部102c進行的畫面顯示，來輸入并取得信息。
按照這樣構(gòu)成的已有技術的對話系統(tǒng)，其優(yōu)點是可通過使用HTML(Hyper Text Markup Language)文件和控制模式文件，對每個HTML文件切換語音識別字典。
即，指定在HTML文件中所使用的語音識別字典，對控制模式文件中的每個識別詞匯指定下面應提示的HTML文件，由此，切換語音識別字典。
但是，上述已有技術的對話系統(tǒng)存在下述問題。
即，為了把數(shù)十萬條以上的大規(guī)模的識別詞匯作為對象進行語音識別，就必須要求高性能的中央運算處理裝置(處理器，中央處理單元(CPU))和大容量的存儲器。因此，像上述的對話系統(tǒng)，在終端進行語音識別的方法中，在制造具有高性能的CPU與大容量存儲器的終端時，其成本增加。
如果例舉具體的一個實例，使用便攜式電話終端進行與大量的詞匯有關的語音識別就會導致便攜式電話終端機身制造成本的大幅度的增加，伴隨而來的就是使銷售價格大為上升。因此，很難實現(xiàn)采用便攜式電話終端的語音識別，妨礙移動環(huán)境下的利用。
在使用語音的對話中，必須根據(jù)對話的狀況控制語音識別和語音輸出。
具體來說，在不能識別用戶發(fā)出的語音的情況下的控制或終端裝置的語音引導的輸出時，必須控制是否受理用戶的發(fā)話。可是，在上述對話系統(tǒng)中，由于采用HTML文件作為控制語言，所以難以進行采用語音的對話的必要控制。
即，在上述的以往的對話系統(tǒng)中，首先，檢測識別詞匯，然后，從服務器獲得與該識別詞匯相對應的HTML文件。但是，在不能檢測識別詞匯的情況下，由于不可能獲得HTML文件，故在不能夠識別時，對話停止。另外，在HTML文件中極難表示是否受理用戶發(fā)話的控制信息。
為了解決上述課題，按照發(fā)明的第一項發(fā)明的特征在于具有可輸出語音信息的語音信息提供裝置、可輸出畫面信息的畫面信息提供裝置以及可對上述語音信息提供裝置和畫面信息提供裝置發(fā)送接收電子信息的對話控制裝置；至少可與畫面信息提供裝置之間進行通信的第一通信終端和至少可與語音信息提供裝置之間進行通信的第二通信終端可連接起來；畫面信息提供裝置具有記錄發(fā)送到可顯示視覺信息的第一通信終端的第一電子信息和對話控制裝置中所使用的第二電子信息的記錄部，同時在從第一通信終端或?qū)υ捒刂蒲b置接收到信息的情況下，可根據(jù)接收到的信息進行向第一通信終端發(fā)送第一電子信息的處理和向?qū)υ捒刂蒲b置發(fā)送第二電子信息的處理中的至少一種處理；語音信息提供裝置在接收到由對話控制裝置生成的語音對話用信息的情況下可從對話控制裝置把基于語音對話用信息的語音信息發(fā)送到第二通信終端，同時在從第二通信終端接收到語音信息的情況下，可根據(jù)語音對話用信息識別所接收到的語音信息，并生成語音識別結(jié)果，發(fā)送到對話控制裝置；對話控制裝置在從畫面信息提供裝置接收到第二電子信息的情況下，可根據(jù)第二電子信息生成語音對話用信息，發(fā)送到語音信息提供裝置，同時在從語音信息提供裝置接收到語音識別結(jié)果的情況下，可根據(jù)第二電子信息，將與語音識別結(jié)果有關的信息發(fā)送到畫面信息提供裝置。
作為典型方式，該第一項發(fā)明中，畫面信息提供裝置、語音信息提供裝置和對話控制裝置可經(jīng)電話線路交換網(wǎng)、互聯(lián)網(wǎng)或局域網(wǎng)(LAN)等網(wǎng)絡相互連接，同時第一通信終端和第二通信終端可經(jīng)網(wǎng)絡連接起來。
本發(fā)明的第二項發(fā)明的特征在于連接有畫面信息提供裝置和語音信息提供裝置；畫面信息提供裝置具有可記錄發(fā)送到能顯示視覺信息的第一通信終端的第一電子信息和語音信息提供裝置所使用的第二電子信息的記錄部，同時在從第一通信終端或語音信息提供裝置接收到信息的情況下，可進行把基于接收到的信息的第一電子信息發(fā)送到第一通信終端的處理和向語音信息提供裝置發(fā)送第二電子信息的處理中的至少一種處理；語音信息提供裝置在從畫面信息提供裝置接收到第二電子信息的情況下，可將基于第二電子信息的語音信息發(fā)送到能輸出語音的第二通信終端，同時在從第二通信終端接收到語音信息的情況下，可根據(jù)第二電子信息識別接收到的語音信息，并生成語音識別結(jié)果，將語音識別結(jié)果發(fā)送到畫面信息提供裝置。
在該第一項和第二項發(fā)明中，如果考慮可與互聯(lián)網(wǎng)等網(wǎng)絡連接的便攜式電話或PHS等所采用的情況，第一通信終端和第二通信終端最好由同一終端構(gòu)成。
作為典型方式，在該第二項發(fā)明中，畫面信息提供裝置和聲音信息提供裝置可經(jīng)網(wǎng)絡相互連接，同時可經(jīng)網(wǎng)絡把第一通信裝置和第二通信裝置連接起來。
本發(fā)明的第三項發(fā)明的特征在于畫面信息提供裝置、對話控制裝置和語音識別裝置相互連接起來而構(gòu)成，同時可連接通信終端；畫面信息提供裝置具有可記錄發(fā)送到通信終端的第一電子信息和對話控制裝置中所使用的第二電子信息的記錄部，同時在從通信終端或?qū)υ捒刂蒲b置接收到信息的情況下，可根據(jù)接收到的信息進行把第一電子信息發(fā)送到通信終端的處理和把第二電子信息發(fā)送到對話控制裝置的處理中的至少一種處理；對話控制裝置在從畫面信息提供裝置接收到第二電子信息的情況下，生成基于第二電子信息的語音對話用信息，并發(fā)送到通信終端，在從通信終端接收到語音識別結(jié)果的情況下，根據(jù)第二電子信息把與上述語音識別結(jié)果有關的信息發(fā)送到畫面信息提供裝置；語音識別裝置可從通信終端接收語音信息，識別所接收到的語音信息，生成語音識別結(jié)果，并發(fā)送到通信終端。
作為典型方式，在該第三項發(fā)明中，在從畫面信息提供裝置接收到第一電子信息的情況下，通信終端可輸出第一電子信息或?qū)Φ谝浑娮有畔⑦M行了加工的信息；在進行了接觸輸入的情況下，通信終端可根據(jù)第一電子信息把已進行了接觸輸入的信息發(fā)送到畫面信息提供裝置；在從對話控制裝置接收到語音對話用信息的情況下，通信終端可根據(jù)語音對話用信息控制語音的輸入或語音的輸出；在進行了語音的輸入的情況下，通信終端可根據(jù)語音對話用信息把語音發(fā)送到語音識別裝置；在從語音識別裝置接收到語音識別結(jié)果的情況下，通信終端可根據(jù)語音對話用信息把與語音識別結(jié)果有關的信息發(fā)送到對話控制裝置。
在上述第一項發(fā)明或第三項發(fā)明中，在接收到語音識別結(jié)果的情況下，對話控制裝置最好可根據(jù)第二電子信息和語音識別結(jié)果生成語音對話用信息。
本發(fā)明的第四項發(fā)明的特征在于把畫面信息提供裝置和語音識別裝置連接起來而構(gòu)成，同時能夠連接可與畫面信息提供裝置和語音識別裝置進行通信的通信終端；畫面信息提供裝置具有可記錄發(fā)送到通信終端的第一電子信息和語音識別裝置所使用的第二電子信息的記錄部，并且可根據(jù)從通信終端接收到的信息把第一電子信息和第二電子信息發(fā)送到通信終端；語音識別裝置識別從通信終端接收到的語音信息，并可生成語音信息的語音識別結(jié)果，同時可把語音識別結(jié)果發(fā)送到通信終端。
作為典型方式，在該第四項發(fā)明中，通信終端在從畫面信息提供裝置接收到第一電子信息的情況下可顯示第一電子信息或?qū)Φ谝浑娮有畔⑦M行了加工的信息；在進行了接觸輸入的情況下可根據(jù)第一電子信息把已進行了接觸輸入的信息發(fā)送到畫面信息提供裝置；在從畫面信息提供裝置接收到第二電子信息的情況下可根據(jù)第二電子信息控制語音的輸入和語音的輸出；在進行了語音輸入的情況下可根據(jù)第二電子信息把語音的語音信息發(fā)送到語音識別裝置；在從語音識別裝置接收到語音識別結(jié)果的情況下可根據(jù)第二電子信息把與語音識別結(jié)果有關的信息發(fā)送到畫面信息提供裝置。
作為典型方式，在該第四項發(fā)明中，畫面信息提供裝置和語音識別裝置經(jīng)網(wǎng)絡相互連接，并且通信終端經(jīng)該網(wǎng)絡可在與畫面信息提供裝置和語音識別裝置之間進行通信。
本發(fā)明的第五項發(fā)明是一種對話控制裝置，其特征在于具有接收從連接在網(wǎng)絡上的第一電子計算機發(fā)送的電子信息的第一接收裝置；加工電子信息而生成語音對話用信息的生成裝置；向連接在網(wǎng)絡上同時能夠進行語音對話處理的第二電子計算機發(fā)送語音對話用信息的第一發(fā)送裝置；接收在第二電子計算機中進行的語音對話處理而生成的語音識別結(jié)果的第二接收裝置；根據(jù)語音識別結(jié)果或電子信息把與語音識別結(jié)果有關的信息發(fā)送到第一電子計算機的第二發(fā)送裝置。
在該第五項發(fā)明中，為了節(jié)省裝置中的空間和簡化裝置，作為典型方式，第一發(fā)送裝置和第二接收裝置由同一個第一發(fā)送接收裝置構(gòu)成，同時第二發(fā)送裝置和第一接收裝置由同一個第二發(fā)送接收裝置構(gòu)成。
在該第五項發(fā)明中，語音對話用信息的生成最好可根據(jù)語音識別結(jié)果來進行。
本發(fā)明的第六項發(fā)明是一種對話系統(tǒng)，可連接具有接觸輸入、語音輸入、畫面顯示和語音輸出的用戶接口的通信終端；其特征在于具有接收基于通信終端發(fā)送的接觸輸入的電子信息的接收裝置；接收基于通信終端發(fā)送的語音輸入的語音信息的接收裝置；把畫面顯示用的電子信息發(fā)送到通信終端的發(fā)送裝置；把語音輸出用的語音信息發(fā)送到通信終端的發(fā)送裝置；根據(jù)基于接觸輸入的電子信息或基于語音輸入的語音信息使畫面顯示用的電子信息或語音輸出用的語音信息變化的裝置。
本發(fā)明的第七項發(fā)明是一種對話系統(tǒng)，可連接具有接觸輸入和畫面顯示的用戶接口的第一通信終端，同時可連接具有語音輸入和語音輸出的用戶接口的第二通信終端；其特征在于具有接收第一通信終端發(fā)送的基于接觸輸入的電子信息的接收裝置；接收第二通信終端發(fā)送的基于語音輸入的語音信息的接收裝置；把畫面顯示用的電子信息發(fā)送到第一通信終端的發(fā)送裝置；把語音輸出用的語音信息發(fā)送到第二通信終端的發(fā)送裝置；根據(jù)基于接觸輸入的電子信息或基于語音輸入的語音信息使畫面顯示用的電子信息或語音輸出用的語音信息變化的裝置。
在本發(fā)明的第一、第二和第六項發(fā)明中，在同一用戶使用第一通信終端和第二通信終端的情況下，為了使該第一通信終端和第二通信終端相對應，作為典型方式，從第一通信終端接觸輸入第一用戶識別符的同時，從第二通信終端發(fā)送第二用戶識別符，比較第一用戶識別符和第二識別符的異同，就能夠使第一通信終端和第二通信終端相對應。
在本發(fā)明的第一、第二和第六項發(fā)明中，在同一用戶使用第一通信終端和第二通信終端的情況下，為了使該第一通信終端和第二通信終端相對應，作為典型方式，在把第二通信終端與對話系統(tǒng)連接時，在對話系統(tǒng)中自動生成第一密碼數(shù)據(jù)，并發(fā)送到第二通信終端；在第二通信終端，把第一密碼數(shù)據(jù)進行語音輸出后，把第一通信終端連接到對話系統(tǒng)上時，從第一通信終端接觸輸入第二密碼數(shù)據(jù)，并發(fā)送到對話系統(tǒng)；在對話系統(tǒng)中，比較第一密碼數(shù)據(jù)和第二密碼數(shù)據(jù)的異同，就能夠使第一通信終端和第二通信終端相對應。
在本發(fā)明的第一、第二和第六項發(fā)明中，在同一用戶使用第一通信終端和第二通信終端的情況下，為了使該第一通信終端和第二通信終端相對應，同時進一步提高保密性，最好是在第一通信終端連接到對話系統(tǒng)上時，在上述對話系統(tǒng)中自動生成第一密碼數(shù)據(jù)，并發(fā)送到第一通信終端；在第一通信終端，把第一密碼數(shù)據(jù)進行畫面輸出后，在第二通信終端與對話系統(tǒng)連接時，從第二通信終端把第二密碼數(shù)據(jù)發(fā)送到對話系統(tǒng)；在該對話系統(tǒng)中，比較第一密碼數(shù)據(jù)和第二密碼數(shù)據(jù)的異同，就能夠使第一通信終端和第二通信終端相對應。
在本發(fā)明的第一、第二和第六項發(fā)明中，在同一用戶使用第一通信終端和第二通信終端的情況下，為了更簡便地使該第一通信終端和第二通信終端相對應，作為典型方式，可把第一通信終端連接在至少連接了畫面信息提供裝置的第一網(wǎng)絡上，同時第二通信終端可連接在能夠與第二通信終端進行通信且具有多個分別記錄了位置信息的基站的第二網(wǎng)絡上；第二通信終端與第一基站通信的同時，在第一基站，除了第二通信終端以外而不存在通信中的通信終端時，在第一通信終端連接到第一網(wǎng)絡上時可使第一通信終端和第二通信終端相對應。
按照上述那樣構(gòu)成的本發(fā)明的對話系統(tǒng)和對話控制裝置，使用第一通信終端和第二通信終端，或使用它們組合形成的通信終端來進行語音的終端操作時，在終端以外的外部進行語音識別處理就能夠不對第一通信終端和第二通信終端施加較大的負荷，而可進行語音識別處理。
圖2是本發(fā)明的第一實施例的對話控制系統(tǒng)的方框圖。
圖3是本發(fā)明的第一實施例的對話系統(tǒng)、連接在該對話系統(tǒng)上的語音終端和畫面終端的對應情況的方框圖。
圖4是本發(fā)明的第一實施例的對話控制用文件數(shù)據(jù)的一個實例的程序。
圖5是圖4所示的對話控制用文件數(shù)據(jù)的一個實例的后續(xù)部分的程序。
圖6是本發(fā)明的第一實施例的對話控制裝置的對話控制處理的流程圖。
圖7是本發(fā)明的第一實施例的畫面信息提供裝置的方框圖。
圖8是本發(fā)明的第二實施例的對話系統(tǒng)、連接在該對話系統(tǒng)上的語音終端和畫面終端的方框圖。
圖9是本發(fā)明的第二實施例的畫面信息提供裝置的方框圖。
圖10是本發(fā)明的第三實施例的對話系統(tǒng)、連接在該對話系統(tǒng)上的用戶終端的方框圖。
圖11是已有技術的對話系統(tǒng)、連接在該對話系統(tǒng)上的用戶終端的方框圖。
(第一實施例)首先，對本發(fā)明的第一實施例的對話系統(tǒng)進行描述。圖1表示該第一實施例的對話系統(tǒng)、連接在該對話系統(tǒng)上的語音終端和畫面終端。
如圖1所示，在該第一實施例的語音識別對話系統(tǒng)中，語音終端2和語音信息提供裝置3連接在例如由電話線路等線路網(wǎng)構(gòu)成的公共線路交換網(wǎng)1上。畫面終端5、語音信息提供裝置3、語音對話用數(shù)據(jù)提供裝置6、對話控制裝置7以及畫面信息提供裝置8連接在互聯(lián)網(wǎng)等的寬帶網(wǎng)絡4上。
其中的語音終端2和畫面終端5是用戶側(cè)所持有并使用的終端，語音信息提供裝置3、語音對話用數(shù)據(jù)提供裝置6、對話控制裝置7以及畫面信息提供裝置8是設置在對話系統(tǒng)側(cè)的裝置。
語音終端2是例如便攜電話、PHS(Personal Handy phone System個人手機系統(tǒng))、PDA(Personal Digital Assistant個人數(shù)字助理)或個人計算機(PC)等具有語音輸入輸出裝置的通信終端。
該語音終端2中，可輸入作為用戶本身發(fā)出的語音的語音信號、多頻撥號音(Dial Tone Multi Frequency，DTMF)，同時能夠經(jīng)公共線路交換網(wǎng)1輸入來自語音信息提供裝置3的語音信號。
語音終端2中，可輸出語音信號，該語音信號經(jīng)公共線路交換網(wǎng)1供給語音信息提供裝置3?？蓮脑撜Z音終端2向用戶輸出可聽到的語音。
在這樣構(gòu)成的語音終端2中，在從用戶輸入語音或DTMF的情況下，語音終端2首先把這些語音或DTMF轉(zhuǎn)換為語音信號，然后，經(jīng)公共線路交換網(wǎng)1把該語音信號發(fā)送到語音信息提供裝置3。另一方面，在語音終端2接收來自語音信息提供裝置3的語音信號的情況下，該語音終端2將所接收到的語音信號恢復為語音，從設置于語音終端2中的揚聲器(圖中未示出)輸出。該語音終端2的用戶可聽從該揚聲器輸出的語音來識別語音信息。
用戶所持有并使用的畫面終端5由例如便攜電話、PHS、PDA或PC等通信終端構(gòu)成，該通信終端至少具有顯示GUI畫面的畫面顯示裝置和接受來自用戶的接觸輸入的接觸輸入裝置(在圖中均未示出)。在這里，所謂“接觸輸入”是指用戶用數(shù)字鍵、鍵盤、觸摸面板、指向器等輸入裝置直接接觸進行的輸入，用硬件或軟件來實現(xiàn)。
在該畫面終端5中，用戶可通過接觸輸入來輸入文字等文本信息或指向信息，同時該畫面終端5可經(jīng)網(wǎng)絡4輸入從畫面信息提供裝置8發(fā)送的例如HTML文件等用于在畫面上進行顯示的電子信息。
此外，在該畫面終端5中，可輸出通用資源標識符(Universal ResourceIndicator，URI)、用戶通過接觸輸入來輸入的輸入信息以及識別畫面終端5的標識符(用戶ID)。該URI、輸入信息和用戶ID通過網(wǎng)絡4供給畫面信息提供裝置8。該畫面終端5中，可輸出用戶能認識的畫面信息。
在這樣構(gòu)成的畫面終端5中，在與畫面信息提供裝置8之間，進行網(wǎng)上信息塊(Cookie)的對話期間管理。把用戶ID包含在網(wǎng)上信息塊中，畫面信息提供裝置8就能夠識別畫面終端5。
在用戶通過接觸輸入輸入了輸入信息和URI的情況下，畫面終端5將該輸入信息和URI變換為信號，然后，通過網(wǎng)絡4將該信號發(fā)送到畫面信息提供裝置8。另一方面，在畫面終端5從該畫面信息提供裝置8接收到電子信息的情況下，該畫面終端5對所接收到的電子信息進行分析處理，然后，作為圖象顯示在畫面上。語音終端2的用戶觀看顯示在畫面上的圖象，就能識別畫面中的圖象信息。
語音信息提供裝置3至少具有分析語音識別時所用的語言即“語音XML(語音XML)”的語音XML分析執(zhí)行裝置、語音識別裝置以及語音合成裝置。該語音XML分析執(zhí)行裝置、語音識別裝置以及語音合成裝置既可設置于同一計算機中，也可設置于不同的計算機中。
語音XML分析執(zhí)行裝置中，對每個連接的語音終端2生成并在與對話控制裝置7之間進行網(wǎng)上信息塊的對話期間管理。把密碼(主叫人ID)包含在網(wǎng)上信息塊內(nèi)，語音信息提供裝置3和對話控制裝置7就可相互對應語音終端2的用戶。
具體來說，在語音XML分析執(zhí)行裝置中，首先對語音XML文件進行分析處理。此時，在所接收到的語音XML文件內(nèi)有進行語音識別的記述的情況下，對語音識別裝置請求識別，并取得識別結(jié)果。把所取得的識別結(jié)果發(fā)送到對話控制裝置7。接著，從語音XML文件內(nèi)記述的識別語法的所在地取得識別語法。此時，在所接收到的語音XML文件內(nèi)有進行語音合成的記述的情況下，對語音合成裝置請求合成，并取得合成結(jié)果。然后，語音XML分析執(zhí)行裝置將所取得的合成結(jié)果變換為語音信號，發(fā)送到語音終端2。在所接收到的語音XML文件內(nèi)有輸出語音引導用文件的記述的情況下，從所記述的所在地取得語音引導用文件。接著將所取得的語音引導用文件的內(nèi)容變換為語音信號，發(fā)送到語音終端2。
在語音XML文件內(nèi)有取得語音XML文件的記述的情況下，在由URI指定的地方要求語音XML文件。
從對話控制裝置7接收中斷命令信號時，按下述的順序進行處理。中斷語音XML分析處理、語音識別以及語音信號的輸出。
向?qū)υ捒刂蒲b置7要求新的語音XML文件的URI。在此之前，在發(fā)送到語音信息提供裝置3的語音XML文件中指定該URI。
在語音識別裝置的處理中，首先，根據(jù)來自語音XML分析執(zhí)行裝置的請求，進行語音識別處理，將識別結(jié)果返回到給語音XML分析執(zhí)行裝置。
另一方面，在語音合成裝置中，根據(jù)來自語音XML分析執(zhí)行裝置的請求，將文本信息變換為語音數(shù)據(jù)，將變換結(jié)果返回到該語音XML分析執(zhí)行裝置。此時，從語音對話用數(shù)據(jù)提供裝置6取得向語音數(shù)據(jù)變換所必要的語音合成用數(shù)據(jù)文件。
語音信息提供裝置3可輸入從上述語音終端2輸出的語音信號。即，語音信息提供裝置3可輸入用于識別從對話控制裝置7輸出的語音終端2的識別符(主叫人ID、密碼)和語音XML文件數(shù)據(jù)，同時可輸入從語音對話用數(shù)據(jù)提供裝置6輸出的語音識別語法文件、語音引導用文件和語音合成用數(shù)據(jù)文件等電子信息。
語音信息提供裝置3可輸出語音信號，如上所述，可通過公共線路交換網(wǎng)1把語音信號供給語音終端2。
語音信息提供裝置3可輸出語音XML文件的URI、密碼(主叫人ID)、語音識別結(jié)果(Rec Result)、語音識別語法文件的URI、語音引導用文件的URI以及語音合成用數(shù)據(jù)文件的請求。語音識別結(jié)果具有識別詞匯、識別詞匯的屬性、對應于識別的可信度的多個識別結(jié)果候補(N-best)、可信度低于設定值的情況下的識別錯誤(nomatch)以及輸入音量小于設定值的情況下的識別錯誤(noinput)。
從語音信息提供裝置3輸出的信號中的語音XML文件的URI、密碼(主叫人ID)和語音識別結(jié)果(Rec Result)經(jīng)網(wǎng)絡4被發(fā)送到對話控制裝置7。
另一方面，從語音信息提供裝置3輸出的信號中的語音識別語法文件的URI、語音引導用文件的URI以及語音合成用數(shù)據(jù)文件的請求經(jīng)網(wǎng)絡4被送到語音對話用數(shù)據(jù)提供裝置6。
語音對話用數(shù)據(jù)提供裝置6具有可存儲數(shù)據(jù)的輔助記錄媒體(圖中未示出)，在語音對話用數(shù)據(jù)提供裝置6的輔助記錄媒體上存儲有語音識別語法文件、語音引導用文件以及語音合成用數(shù)據(jù)文件。
語音對話用數(shù)據(jù)提供裝置6可應答來自語音信息提供裝置3的請求，經(jīng)網(wǎng)絡4將這些文件提供給語音信息提供裝置3。該語音對話用數(shù)據(jù)提供裝置6既可由同一臺計算機構(gòu)成，也可由互不相同的計算機構(gòu)成?？梢园言撜Z音對話用數(shù)據(jù)提供裝置6包含在語音信息提供裝置3內(nèi)，由同一臺計算機構(gòu)成。
對話控制裝置7用來在語音信息提供裝置3和畫面信息提供裝置8之間進行同步控制，畫面信息提供裝置8至少具有Web服務器、應用程序和數(shù)據(jù)庫。畫面信息提供裝置8中的Web服務器、應用程序和數(shù)據(jù)庫等各個裝置可設置在同一個計算機中，也可設置在互不相同的計算機中。后面將詳細描述對話控制裝置7和畫面信息提供裝置8。
在語音信息提供裝置3、對話控制裝置7以及畫面信息提供裝置8相互之間用對話控制用文件數(shù)據(jù)實現(xiàn)同步。該對話控制用文件數(shù)據(jù)例如可像如下這樣使用。
具體來說，首先，用戶使用畫面終端5經(jīng)公共線路交換網(wǎng)1和網(wǎng)絡4連接到該第一實施例的對話系統(tǒng)上的情況下，接著就在對話系統(tǒng)和語音終端2之間確立連接。
即，在用戶對第一實施例的對話系統(tǒng)連接語音終端2之前，從畫面終端5開始連接的情況下，首先從畫面信息提供裝置8向?qū)υ捒刂蒲b置7發(fā)送初始化語音信息提供裝置3的對話控制用文件數(shù)據(jù)。
接收到對話控制用文件數(shù)據(jù)的對話控制裝置7控制生成語音對話用的文件數(shù)據(jù)的語音對話用文件生成部24(圖中未示出)從對話控制用文件數(shù)據(jù)生成語音XML文件數(shù)據(jù)。在這里生成的語音XML文件數(shù)據(jù)被登記在特定的URI中。該登記地址的URI被記述在對話控制用文件數(shù)據(jù)內(nèi)。
在語音信息提供裝置3中，一旦有來自語音終端2的連接，就進行設定，以請求該URI的語音XML文件數(shù)據(jù)，一旦實現(xiàn)連接，就請求相應的語音XML文件數(shù)據(jù)。
另一方面，在用戶從語音終端2與第一實施例的對話系統(tǒng)連接的情況下，就如下面那樣實現(xiàn)該對話系統(tǒng)與語音終端5之間的連接。
即，在用戶從語音終端2連接之前，準備初始連接用的語音XML文件數(shù)據(jù)(初始連接用語音XML文件數(shù)據(jù))。該初始連接用語音XML文件數(shù)據(jù)被存儲在語音信息提供裝置3、對話控制裝置7或不同于它們的裝置中。初始連接用語音XML文件數(shù)據(jù)也可以根據(jù)發(fā)話方號碼或撥入號碼來準備。
一旦有來自語音終端2的連接，語音信息提供裝置3就分析執(zhí)行初始連接用語音XML文件數(shù)據(jù)。然后從語音信息提供裝置3把分析執(zhí)行初始連接用語音XML文件數(shù)據(jù)而輸出的語音識別結(jié)果發(fā)送到對話控制裝置7。
向?qū)υ捒刂蒲b置7要求下次應處理的語音XML文件的URI。一旦接收到語音識別結(jié)果，該對話控制裝置7就根據(jù)對話控制用文件的內(nèi)容進行處理，并把處理結(jié)果發(fā)送到畫面信息提供裝置8。對話控制裝置7對語音信息提供裝置3，將相應的語音XML文件數(shù)據(jù)發(fā)送到所要求的URI。
在用戶從畫面終端5對該對話系統(tǒng)進行輸入的情況下，按如下方式進行對話的同步。
即，使對話系統(tǒng)處于還可接收來自畫面終端5和語音終端2中的任何一方輸入的狀態(tài)。在該狀態(tài)下，在從畫面終端5輸入的情況下，從畫面信息提供裝置8向?qū)υ捒刂蒲b置7發(fā)送對話控制用文件數(shù)據(jù)。在該對話控制裝置7中，由語音對話用文件生成部24從對話控制用文件數(shù)據(jù)生成語音XML文件，并把中斷命令信號發(fā)送到語音信息提供裝置3。
一旦接收到中斷命令信號，語音信息提供裝置3就中斷語音XML分析執(zhí)行、語音識別和語音輸出。同時，語音信息提供裝置3向?qū)υ捒刂蒲b置7要求新的語音XML文件的URI。接收到要求的對話控制裝置7針對該要求發(fā)送所生成的語音XML文件數(shù)據(jù)。
在用戶從語音終端2對該對話系統(tǒng)進行輸入的情況下，按如下方式來變更畫面顯示。
即，使對話系統(tǒng)的狀態(tài)處于還可接收來自畫面終端5和語音終端2中的任何一方的輸入的狀態(tài)下，在該狀態(tài)下，如果有從語音終端2向語音信息提供裝置3進行語音信息的輸入，就從語音信息提供裝置3向?qū)υ捒刂蒲b置7發(fā)送語音識別結(jié)果。
在對話控制裝置7中，根據(jù)對話控制用文件數(shù)據(jù)處理語音識別結(jié)果，并將該處理結(jié)果發(fā)送到畫面信息提供裝置8。
在畫面信息提供裝置8中，根據(jù)所接收到的處理結(jié)果切換畫面的顯示內(nèi)容。
這里，來說明對話控制裝置7。圖2表示該第一實施例的對話控制裝置7的各部分。
如圖2所示，在該第一實施例的對話控制裝置7中，具有語音現(xiàn)場通信部21、應用現(xiàn)場通信部22、用戶狀態(tài)管理部23、語音對話用文件生成部24和對話控制用文件分析部25。
語音現(xiàn)場通信部21可從語音信息提供裝置3輸入語音XML文件的URI、密碼(主叫人ID)以及語音識別結(jié)果，同時輸出密碼(主叫人ID)、語音XML文件數(shù)據(jù)以及語音處理的中斷命令信號，供給語音信息提供裝置3。
語音現(xiàn)場通信部21可輸入從語音對話用文件生成部24輸出的密碼(主叫人ID)和語音XML文件數(shù)據(jù)。另外，語音現(xiàn)場通信部21可輸入從對話控制用文件分析部25輸出的密碼(主叫人ID)和語音處理的中斷命令信號的信號，同時語音現(xiàn)場通信部21可輸入密碼(主叫人ID)和語音識別結(jié)果，供給對話控制用文件分析部25。
這樣構(gòu)成的語音現(xiàn)場通信部21在與語音信息提供裝置3之間進行按網(wǎng)上信息塊的對話期間管理。這里，網(wǎng)上信息塊中包含有密碼(主叫人ID)，用網(wǎng)上信息塊，語音信息提供裝置3和對話控制裝置7就可相互對應語音終端2的用戶。
在語音現(xiàn)場通信部21從語音信息提供裝置3接收到密碼(主叫人ID)，以及語音XML文件的URI的情況下，如果該接收內(nèi)容中不包括網(wǎng)上信息塊，就生成新的網(wǎng)上信息塊。并且，語音現(xiàn)場通信部21將位于被要求的URI的語音XML文件數(shù)據(jù)與密碼(主叫人ID)一起發(fā)送到語音信息提供裝置3。
另一方面，在語音現(xiàn)場通信部21從語音信息提供裝置3接收到密碼(主叫人ID)以及語音識別結(jié)果的情況下，語音現(xiàn)場通信部21就把密碼(主叫人ID)和語音識別結(jié)果發(fā)送到對話控制用文件分析部25。在對話控制用文件分析部25把密碼(主叫人ID)和中斷命令信號供給語音現(xiàn)場通信部21，的情況下，將所供給的密碼(主叫人ID)和中斷命令信號發(fā)送到語音信息提供裝置3。
應用現(xiàn)場通信部22可從畫面信息提供裝置8輸入對話控制用文件數(shù)據(jù)、指定畫面終端5的用戶的識別符(用戶ID)、畫面信息提供裝置8的處理結(jié)果(應用結(jié)果)，同時應用現(xiàn)場通信部22可從對話控制用文件分析部25輸入用戶ID、URI以及通過語音對話取得的參數(shù)值(對話結(jié)果)。這里，處理結(jié)果(應用結(jié)果)中可包含用戶從畫面終端5輸入的結(jié)果、畫面信息提供裝置8的處理結(jié)果和數(shù)據(jù)庫的檢索結(jié)果。
應用現(xiàn)場通信部22可通過網(wǎng)絡4向畫面信息提供裝置8供給用戶ID、URI和參數(shù)值(對話結(jié)果)，同時可向?qū)υ捒刂朴梦募治霾?5供給對話控制用文件數(shù)據(jù)、用戶ID以及處理結(jié)果(應用結(jié)果)。
應用現(xiàn)場通信部22在從畫面信息提供裝置8接收到用戶ID、對話控制用文件數(shù)據(jù)和處理結(jié)果(應用結(jié)果)中的兩種信息的情況下，把這兩種信息發(fā)送到對話控制用文件分析部25。
設備側(cè)通信部22在從對話控制用文件分析部25接收到用戶ID、URI和參數(shù)值(對話結(jié)果)的情況下，就把這些信息數(shù)據(jù)發(fā)送到畫面信息提供裝置8。
用戶狀態(tài)管理部23可從對話控制用文件分析部25輸入密碼(主叫人ID)和用戶ID，同時可把密碼(主叫人ID)和用戶ID供給對話控制用文件分析部25。即，用戶狀態(tài)管理部23和對話控制用文件分析部25可相互輸入輸出密碼(主叫人ID)和用戶ID。在對話控制裝置7中，該密碼(主叫人ID)和用戶ID用作使語音終端2的用戶與畫面終端5的用戶相對應用的用戶識別符。
用戶狀態(tài)管理部23用一組作為記錄的表來管理這些密碼(主叫人ID)和用戶ID。
對話控制用文件分析部25以密碼(主叫人ID)或用戶ID為關鍵詞進行檢索。用戶狀態(tài)管理部23把對應的識別符作為檢索結(jié)果供給對話控制用文件分析部25。
語音對話用文件生成部24可從對話控制用文件分析部25輸入密碼(主叫人ID)、對話控制用文件的用一組標記(<dialog>和</dialog>)圍起來的部分(<dialog>部)，同時可把密碼(主叫人ID)、語音XML文件數(shù)據(jù)供給語音現(xiàn)場通信部21。
語音對話用文件生成部24在輸入<dialog>部時，首先，將該<dialog>部的內(nèi)容代入到語音XML模板中，生成語音XML文件數(shù)據(jù)。依照對話的形式準備任意數(shù)的語音XML模板26。并且，將在語音對話用文件生成部24中所生成的語音XML文件與密碼(主叫人ID)一起發(fā)送到語音現(xiàn)場通信部21。
這里，下面來說明在語音對話用文件生成部24中所準備的語音XML模板的一個實例。
即，用于輸出語音引導的語音XML模板的行文結(jié)構(gòu)可以表示為<pre listing-type="program-listing">　?。糳ialog template＝″T001″)　?。紁rompt＞*語音引導文字串*＜/prompt＞　?。?dialog＞<dp n="d15"/>　　或　?。糳ialog template＝″T001″＞　?。紁rompt expr＝″*評價式*″/＞　　＜dialog＞</pre>輸出語音引導，按照任意指定的語法進行語音識別用的語音XML模板的行文結(jié)構(gòu)可以表示為<pre listing-type="program-listing">＜dialog template＝″T003″＞　　＜init＞　?。紁rompt＞*初始語音引導文字串*＜/prompt＞　?。?init＞　?。紀nNomatch retry＝″*true或false*″count＝″*錯誤反復次數(shù)<br/>*″＞　　＜prompt＞*nomatch時輸出的語音引導文字串*＜/prompt＞　?。?onNomatch＞　　＜onNoinput retry＝″*true或false*″count＝″*錯誤反復次數(shù)*″＞　?。紁rompt＞*noinput時輸出的語音引導文字串*＜/prompt＞　　＜/onNoinput＞　?。糶rammar URI＝″*語法文件URI*″slot＝″*存儲槽識別符*″＞　?。紃esult namelist＝″*識別狀態(tài)存儲變量* *識別詞匯存儲變量*″/＞　　＜/dialog＞</pre>在上述的行文結(jié)構(gòu)實例中，把用“*”號圍住的部分代入到語音XML模板中，來生成語音XML文件。
下面舉例說明從對話控制用文件數(shù)據(jù)的<dialog>部，生成語音XML文件的情況。作為一個實例，考慮如下的<dialog>部。
<pre listing-type="program-listing">　?。糳ialog template＝″T003″＞　?。糹nit＞　?。紁rompt＞請說乘車站＜/prompt＞　?。?init＞　　＜onNomatch retry＝″true″count＝″1″＞<dp n="d16"/>　?。紁rompt＞請再說一次乘車站＜/prompt＞　?。?onNomatch＞　?。紀nNoinput retry＝″true″count＝″2″＞　?。紁rompt＞沒聽見。請像東京那樣說乘車站＜/prompt＞　?。?onNoinput＞　?。糶rammar URI＝″http//grammarServer/station.grammar″slot＝″station″＞　?。紃esult namelist＝″recStatus departure″/＞　　＜/dialog＞</pre>下面依次說明上述的行文結(jié)構(gòu)實例中<dialog>部的各標記的含義。即，首先，<dialog>部的屬性template的值(T003)表示模板的識別符，語音對話用文件生成部24從template的值檢索相應的語音XML模板，再將<dialog>部的內(nèi)容代入到該模板中。
在由<init>與</init>圍起來的部分中記述用來輸出該<dialog>部分的初始引導的一組<prompt>和</prompt>，在該組<prompt>和</prompt>圍起來的部分內(nèi)記述語音引導句。這里，輸出稱為“請說乘車站”的語音引導。
也可在<prompt>和</prompt>圍起來的部分中使用放置在網(wǎng)絡4上的服務器中的比如Wav文件MP3文件等的語音文件。在此情況下，在<prompt>和</prompt>之間，就記述比如<audio src＝http//audioServer/audioFileName.wav/>。
在</onNomatch>中，記述取得nomatch的情況下的處理，作為語音識別結(jié)果。在屬性retry的值為true的情況下，輸出<prompt>和</prompt>圍起來的句子作為語音引導。
count是對取得了nomatch的次數(shù)的屬性，輸出指定的語音引導，直到nomatch的次數(shù)達到count的值為止，對每個密碼(主叫人ID)管理nomatch的次數(shù)。
在</onNoinput>中，記述取得noinput的情況的處理，作為語音識別結(jié)果。另外，屬性retry、count、<prompt>的處理與</onNomatch>的情況相同。
在<grammer>中，指定語音識別語法的URI，在<result>中，代入語音識別結(jié)果。
在recStatus中，代入識別成功與否。在識別成功的情況下，輸入“ok”；在識別失敗而構(gòu)成識別錯誤的情況下，輸入nomatch或noinput。在departure中，輸入在recStatus為“ok”的情況下已識別的詞匯。這里，輸入乘車站的名稱。
根據(jù)上述<dialog>部來生成如下的語音XML文件。
<pre listing-type="program-listing">　?。迹縓ML version＝″1.0″encoding＝″Shift_JIS″？＞　?。迹OCTYPE vXML PUBLIC’-//DTD VoiceXML 1.0b//EN’’http//dtd/？？？？/vXML.dtd’＞　?。紇XML version＝″1.0″＞　?。紇ar name＝″nomatch_count″expr＝″1″/＞　　＜var name＝″noinput_count″expr＝″1″/＞　?。糵orm＞　?。糵ield name＝″station″＞　　＜prompt＞請說乘車站＜/prompt＞　?。糶rammer src＝″http//grammarServer/station.grammar#station″＞　　＜catch event＝″nomatch″＞　?。糹f cond＝″nomatch_count＝＝1″＞　　＜prompt＞請再說一次乘車站＜/prompt＞?。糴lse if cond＝″nomatch_count＝＝2″＞　?。糶oto next＝″http//vXMLServer/departuretureErr.vXML″/＞　?。?if＞　?。糰ssign name＝″nomatch_count″expr＝″nomatch_count+1″/＞　　＜/catch＞　?。糲atch event＝″noinput″＞　?。糹f cond＝″noinput_count＝＝1″＞　?。紁rompt＞沒聽見。＜/prompt＞　?。紁rompt＞請像東京那樣說乘車站＜/prompt＞　　＜else if cond＝″noinput_count＝＝2″＞<dp n="d18"/>　?。紁rompt＞沒聽見。＜/prompt＞　　＜prompt＞請像東京那樣說乘車站＜/prompt＞　?。糴lse if cond＝″noinput__count＝＝3″＞　?。糶oto next＝″http//vXMLServer/departuretureErr.vXML″/＞　?。?if>　　?。糰ssign name＝″noinput_count″expr＝″noinput_count+1″/＞　?。?catch＞　?。糵illed＞　?。約ubmit next＝http//vXMLServer/departuretureConf.vXMLnamelist＝″station″/＞　?。?filled＞　?。?form＞</pre>對話控制用文件分析部25可從語音現(xiàn)場通信部21輸入密碼(主叫人ID)和語音識別結(jié)果，同時可從應用現(xiàn)場通信部22輸入對話控制用文件數(shù)據(jù)、用戶ID和處理結(jié)果(應用結(jié)果)，還可從用戶狀態(tài)管理部23輸入密碼(主叫人ID)和用戶ID。
對話控制用文件分析部25可將密碼(主叫人ID)和語音處理的中斷命令信號供給語音現(xiàn)場通信部21，將用戶ID、URI和參數(shù)值(對話結(jié)果)供給應用現(xiàn)場通信部22，將密碼(主叫人ID)和用戶ID供給用戶狀態(tài)管理部23，將密碼(主叫人ID)以及對話控制用文件中的<dialog>與</dialog>圍起來的部分(<dialog>部)供給語音對話用文件生成部24。
以下來說明從應用現(xiàn)場通信部22向上述對話控制用文件分析部25供給對話控制用文件數(shù)據(jù)和用戶ID的情況下的處理。
即，對話控制用文件分析部25首先根據(jù)用戶ID對用戶狀態(tài)管理部23進行檢索，由此來取得對應的密碼(主叫人ID)。此時，不存在用戶狀態(tài)管理部23中檢索的用戶ID的情況下，判定為是來自畫面終端5的新連接。
下面以新連接的情況下的用戶ID和密碼(主叫人ID)的對應例作為3個實例，進行說明。
首先，說明新連接在第一實施例的對話系統(tǒng)的情況下的第一方法。該第一方法是用戶先于語音終端2把畫面終端5連接到對話系統(tǒng)上的情況下的方法。
即，首先，用戶從畫面終端5輸入用戶識別符。作為該用戶識別符，可使用比如電話號碼、用戶任意制作的數(shù)字串、文字串或符號串或它們的混合形式、對話系統(tǒng)的運營側(cè)指定的數(shù)字串、文字串或符號串或它們的混合形式等，最好不要與其它的用戶重復。
用戶使用語音終端2來輸入同一個用戶識別符。在此情況下，也可把使用戶識別符作成發(fā)話者的電話號碼，也可以由此節(jié)省用戶輸入的時間。
通過該用戶的用戶識別符的輸入，從語音信息提供裝置3輸入用戶識別符，作為語音識別結(jié)果，另一方面，從畫面信息提供裝置8輸入用戶識別符，作為對話控制用文件數(shù)據(jù)或處理結(jié)果(應用結(jié)果)。由此，就能夠使具有同一用戶識別符的密碼(主叫人ID)和用戶ID相對應。
下面來說明新連接到該第一實施例的對話系統(tǒng)的情況下的第二方法。
即，在該第二方法中，首先，用戶從語音終端2與對話系統(tǒng)連接時，該對話系統(tǒng)自動生成任意的密碼(主叫人ID)，并經(jīng)語音終端2使用戶得知。
接著，如果用戶從畫面終端5與對話系統(tǒng)連接，用戶就先從畫面終端5輸入經(jīng)語音終端2取得的密碼，作為用戶ID。由于該方法的此后的步驟與第一方法相同，故省略其說明。在該第二方法中，先連接語音終端5后連接語音終端2的情況下也可同樣進行處理。
在該第二方法中提供的密碼是對話系統(tǒng)給予用戶的密碼，與第一方法那樣作成為電話號碼等的情況相比較，由于該密碼僅僅正在使用的用戶知道，所以能夠防止不具有權(quán)限的用戶完全變?yōu)榫哂袡?quán)限的他人而使用。因此，可提高保密性。
下面來說明新連接到按照第一實施例的對話系統(tǒng)的情況下的第三方法，圖3表示有關按照第三方法新連接時的語音終端2和畫面終端5的對應情況的簡況。
如圖3所示，在便攜電話等的情況下，該第三方法是根據(jù)實施通信的基站是哪個基站的信息，利用可指定用戶的位置的原理，來使語音終端2和畫面終端5相對應。
即，在該第三方法中，首先，如果用戶使用語音終端2與對話系統(tǒng)連接，對話系統(tǒng)就進行語音終端2正在進行通信的基站1a的檢索。
然后，如果用戶從畫面終端5與對話系統(tǒng)連接，則在某時刻，連接在同一基站1a上的語音終端2是一個，另外，像這樣，限于語音終端2和畫面終端5同時連接在對話系統(tǒng)上的情況，能夠直接地專門把語音終端2和畫面終端5對應起來。
因為此狀態(tài)僅僅在對話系統(tǒng)側(cè)存在信息，所以像第一或第二方法那樣可以節(jié)省輸入信息的時間，可更加簡單地，使語音終端2和畫面終端5相對應。在此情況下，也可利用全球定位系統(tǒng)(GPS)實現(xiàn)同樣的對應。
下面來說明對話控制文件數(shù)據(jù)。該第一實施例的對話控制文件數(shù)據(jù)是XML文件，對話控制用文件分析部25用XML服務器分析執(zhí)行該XML文件的內(nèi)容。
這里，圖4和圖5表示由該對話控制用文件分析部25進行處理時所采用的對話控制用文件數(shù)據(jù)的一個實例。在圖4和圖5中，左側(cè)的數(shù)字表示行號。
下面用圖4和圖5的對話控制用文件數(shù)據(jù)來說明在對話控制用文件分析部25中進行的處理。圖4和圖5所示的對話控制用文件數(shù)據(jù)是用于從用戶取得列車的乘車站的對話控制用文件。該對話控制用文件可以用于比如列車的車票預約或購買、時刻表檢索或經(jīng)過線路檢索等。文字串“<！— —”與文字串“— —)”圍起來的部分是“注釋″。
首先，該對話控制用文件數(shù)據(jù)的第1行是該對話控制用文件符合XML版本1.0的文件，用移位JIS碼記述。第2行的<對話控制用文件>是表示該文件是對話控制用文件的標記。
對話控制用文件由1個主程序和任意個數(shù)的子程序構(gòu)成。
即，第4行～第10行進行在主程序和子程序中共同使用的變量說明，<declare>是表示變量說明的標記，“name”是變量名稱，“type”是變量類型，“init”是表示變量的初始值的屬性。
第12行～第84行是主程序，第86行～第108行是子程序。主程序使用<main>標記表示其范圍，而子程序使用<sub>標記表示其范圍。
主程序中的第22行～第36行是用來取得乘車站的處理。即，第24行的<dialog>標記表示Template ID采用T003的語音XML模板。在<dialog>部中，記述有應代入語音XML模板的變量。
對話控制用文件分析部25在確認對話控制用文件存在<dialog>部時，將該部分的信息數(shù)據(jù)供給語音對話用文件生成部24。在輸入了該信息數(shù)據(jù)的語音對話用文件生成部24中，分析<dialog>部的內(nèi)容，將分析結(jié)果代入所指定的語音XML模板內(nèi)。
接著，如圖2所示，對話控制用文件分析部25將密碼(主叫人ID)和<dialog>部供給語音對話用文件生成部24，然后，將密碼(主叫人ID)和用戶ID供給用戶狀態(tài)管理部23。
對話控制用文件分析部25處于等待來自語音現(xiàn)場通信部21或應用現(xiàn)場通信部22的信息的待機狀態(tài)。在該待機狀態(tài)下，從應用現(xiàn)場通信部22取得新的對話控制用文件數(shù)據(jù)的情況下，開始分析該對話控制用文件數(shù)據(jù)，同時向語音現(xiàn)場通信部21發(fā)送中斷命令信號。下面，在后面將要描述的語音對話用文件生成部24中說明該處理的<dialog>部的內(nèi)容。
圖4和圖5所示的對話控制用文件數(shù)據(jù)的第39行～第68行是進行語音識別成功的情況下的處理的部分。
即，在<if>標記中，把評價式記述為cond的值。在該評價式的值為真實的情況下，執(zhí)行<if>與</if>圍起來的部分。這里，在recStatus是ok的情況下，進行語音識別了的內(nèi)容(比如，乘車站)的重復確認。
在第44行的<prompt>中，把評價式記述為expr的值。在評價式中，存在(’+’)等的四則運算符或邏輯運算符的情況下，進行按照該運算符的運算。這里，具體來說，在把“京都”作為語音識別結(jié)果代入departure的情況下，就成為“乘車站是京都合適嗎？”。
此外，在第49行的<result>中，代入重復確認的語音識別結(jié)果，在recStatus中，如果識別成功，則輸入“ok″，如果有識別錯誤，則輸入“nomatch”，或“noinput”。在confirmResult中，如果用戶肯定確認，則輸入“yes”，如果否定，則輸入“no”。
在確認成功的情況下，即，如果recStatus為“ok”，則象圖4中的第55行所示的那樣，調(diào)出子程序的departureConfirmResult。另一方面，在確認失敗的情況下，即，如果recStatus為“nomatch”或“noinput”，則用第62行的<callService>，在畫面終端5中進行確認。
<callService>是用于在網(wǎng)絡上的服務器中進行處理用的標記。服務器的應用程序用URI指定。另外，namelist的值是傳遞到服務器中的參數(shù)值(對話結(jié)果)，var的值是將服務器的處理結(jié)果(應用結(jié)果)作為返回值存儲的變量。
在服務器中，根據(jù)URI和參數(shù)值(對話結(jié)果)執(zhí)行對應的應用程序，將返回值返回到對話控制裝置7。
如果執(zhí)行<callService>，對話控制用文件分析部25就成為待機狀態(tài)，直至接收到返回值。這樣使用<callService>，就能夠切換利用語音對話和畫面顯示。
在第71行～第80行記述有在乘車站的識別發(fā)生錯誤的情況下用來從畫面終端5取得乘車站的處理。
第74行的<callService>的使用形式不同于第62行的<callService>。即，是為同時并行對語音對話和畫面顯示而使用的<callService>。
服務器中作為namelist接收到departureErr時，馬上向?qū)υ捒刂蒲b置7返回應答的方式進行設定，同時在畫面終端5中顯示乘車站的選擇畫面。
在對話控制用文件分析部25中，由于通過應用現(xiàn)場通信部22立即有從服務器的應答，故可執(zhí)行第76行的語音引導“請從畫面輸入乘車站”的處理。這樣，在對話控制用文件分析部25中，使用<callService>就能夠同時利用語音對話和畫面顯示。
從第86行～第108行記述有依據(jù)對話控制用文件分析部25的乘車站的確認結(jié)果分支的子程序。
即，如第90行所示，在肯定確認的情況下，即，在confirmResult為“yes”的情況下，取得用來語音識別下車站的對話控制用文件數(shù)據(jù)。
為了取得新的對話控制用文件數(shù)據(jù)，如第93行所示，使用<goto>。即，對話控制用文件分析部25向服務器要求由該<goto>表示的URI，并從該服務器返回相應的對話控制用文件數(shù)據(jù)。這樣使用<goto>就能夠轉(zhuǎn)移對話。
下面說明從應用現(xiàn)場通信部22向?qū)υ捒刂朴梦募治霾?5輸入處理結(jié)果(應用結(jié)果)的情況的處理。
即，處理結(jié)果(應用結(jié)果)作為<callService>的返回值，與用戶ID一起被送到對話控制用文件分析部25。在該對話控制用文件分析部25中，從相應的對話控制用文件數(shù)據(jù)<callService>之后的處理開始，進行分析。
這里，如圖2所示，來說明從語音現(xiàn)場通信部21輸入密碼(主叫人ID)和語音識別結(jié)果(Rec Result)的情況的處理。
即，該對話控制用文件分析部25在輸入密碼(主叫人ID)時，根據(jù)密碼(主叫人ID)對用戶狀態(tài)管理部23進行檢索。在檢索到檢索對象的密碼(主叫人ID)的情況下，判定為來自連接中的語音終端2的輸入。
在圖5所示的對話控制用文件數(shù)據(jù)中，在<dialog>部的<result>內(nèi)代入語音識別結(jié)果的結(jié)果，對話控制用文件分析部25從<dialog>部之后，開始進行處理。在不存在用戶狀態(tài)管理部23中檢索的密碼(主叫人ID)的情況下，判定為來自語音終端2的新連接。新連接的情況下的用戶ID和密碼(主叫人ID)的對應與上述相同。
下面說明第一實施例的對話控制裝置7的處理步驟，圖6是對話控制裝置7的處理步驟的流程圖。
即，如圖6所示，在步驟ST1，在對話控制裝置7與語音信息提供裝置3或畫面信息提供裝置8之間開始連接。在將其中的對話控制裝置7和語音信息提供裝置3連接起來的情況下，該連接開始于從語音信息提供裝置3向語音現(xiàn)場通信部21要求語音XML文件的URI。對話控制裝置7和畫面信息提供裝置8的連接開始于從畫面信息提供裝置8向應用現(xiàn)場通信部22發(fā)送對話控制用文件。然后，進到步驟ST2。
在步驟ST2，對話控制裝置7成為等待來自對話控制裝置3或畫面信息提供裝置8的輸入的待機狀態(tài)。此時，在正執(zhí)行對話控制用文件的<dialog>部之中的情況下，成為等待來自兩個服務器的輸入的狀態(tài)。從語音信息提供裝置3等待語音識別結(jié)果的輸入，從畫面信息提供裝置8等待對話控制用文件數(shù)據(jù)或處理結(jié)果(應用結(jié)果)的輸入。然后，進到步驟ST3。
在該步驟ST3，根據(jù)構(gòu)成輸入源的裝置，后面的處理出現(xiàn)分支。即，對話控制用文件分析部25的輸入是來自語音信息提供裝置3的輸出的情況下，進到步驟ST4，在該輸入是從畫面信息提供裝置8輸出的情況下，進到步驟ST6。
在步驟ST4，從語音信息提供裝置3供給的輸入根據(jù)語音終端2的是否切斷而分支。在該輸入不切斷的情況下，進到步驟ST5，另一方面，在切斷輸入的情況下，進到步驟ST10。
在其中的步驟ST5，由于不切斷從語音信息提供裝置3供給的輸入，將語音識別結(jié)果代入<dialog>部的<result>中，故在該<dialog>部后，開始執(zhí)行對話控制用文件數(shù)據(jù)的處理。然后，進到步驟ST2，處于待機狀態(tài)。
另一方面，在于步驟ST4，從語音信息提供裝置3供給的輸入是切斷的情況下，進到步驟ST10，進行結(jié)束處理，刪除用戶狀態(tài)管理部23中的相應記錄。
在于步驟ST3，在輸入是從畫面信息提供裝置8輸出的情況下，進到步驟ST6。在步驟ST6，來自畫面信息提供裝置8的輸入根據(jù)是對話控制用文件數(shù)據(jù)，還是處理結(jié)果(應用結(jié)果)來分支。即，在來自畫面信息提供裝置8的輸入是對話控制用文件數(shù)據(jù)的情況下，進到步驟ST7，在是處理結(jié)果(應用結(jié)果)的情況下，進到步驟ST8。
在來自畫面信息提供裝置8的輸入是對話控制用文件數(shù)據(jù)的情況下，進到步驟ST7，對話控制用文件分析部25首先在新的對話控制用文件數(shù)據(jù)的取得不是由<goto>得到的情況下，向語音現(xiàn)場通信部21發(fā)送中斷命令信號。然后，對話控制用文件分析部25分析執(zhí)行新的對話控制用文件數(shù)據(jù)。然后，進到步驟ST9。
另一方面，在來自畫面信息提供裝置8的輸入是處理結(jié)果(應用結(jié)果)的情況下，進到步驟ST8。在步驟ST8，將處理結(jié)果(應用結(jié)果)作為<callService>的返回值提供給對話控制用文件分析部25，對話控制用文件分析部25在該<callService>之后，開始進行對話控制用文件的處理。然后，進到步驟ST9。
在步驟ST9，根據(jù)對話控制用文件數(shù)據(jù)中是否有表示結(jié)束的<exit/>標記而分支。
即，在對話控制用文件數(shù)據(jù)中沒有<exit/>標記的情況下，由于有<dialog>、<goto>或<callService>，故進到步驟ST2，以便等待來自語音信息提供裝置3的輸入。
另一方面，在對話控制用文件數(shù)據(jù)中有<exit/>標記的情況下，進到步驟ST10，進行結(jié)束處理，刪除用戶狀態(tài)管理部23的相應記錄。
如上所述，進行對話控制裝置7做的處理。
接著，說明由上述的對話控制裝置7控制輸出的第一實施例的畫面信息提供裝置8。圖7表示該第一實施例的畫面信息提供裝置8的構(gòu)成。
如圖7所示，第一實施例的畫面信息提供裝置8由對話控制側(cè)通信部31、可檢索數(shù)據(jù)庫32a的后端應用部32、可檢索對話控制用文件數(shù)據(jù)庫33a、URI對應表數(shù)據(jù)庫33b和HTM文件組數(shù)據(jù)庫33c的電子文件檢索部33和Web服務器34構(gòu)成。
對話控制側(cè)通信部31可從對話控制裝置7輸入用戶ID、URI和參數(shù)值(對話結(jié)果)，同時可從后端應用部32輸入用戶ID、對話控制用文件數(shù)據(jù)和處理結(jié)果(應用結(jié)果)。
對話控制側(cè)通信部31可向?qū)υ捒刂蒲b置7輸出用戶ID、對話控制用文件數(shù)據(jù)和處理結(jié)果(應用結(jié)果)，同時可向后端應用部32輸出用戶ID、URI以及參數(shù)值(對話結(jié)果)。
在這樣構(gòu)成的對話控制側(cè)通信部31中，從后端應用部32供給用戶ID和對話控制用文件數(shù)據(jù)的情況下，將該用戶ID和對話控制用文件數(shù)據(jù)發(fā)送到對話控制裝置7。另一方面，在對話控制側(cè)通信部31從后端應用部32取得用戶ID和處理結(jié)果(應用結(jié)果)的情況下，將這些用戶ID和處理結(jié)果發(fā)送到對話控制裝置7。
在對話控制側(cè)通信部31從對話控制裝置7接收到用戶ID、URI和參數(shù)值(對話結(jié)果)的情況下，將用戶ID、URI和參數(shù)值(對話結(jié)果)供給后端應用部32。
后端應用部32可從對話控制側(cè)通信部31輸入用戶ID、URI和參數(shù)值(對話結(jié)果)，同時可從Web服務器34輸入用戶ID、HTML文件的URI和畫面終端5的操作結(jié)果(Web結(jié)果)；后端應用部32可對數(shù)據(jù)庫32a進行檢索，從該數(shù)據(jù)庫32a輸入數(shù)據(jù)庫檢索結(jié)果(DB結(jié)果)；后端應用部32可從電子文件檢索部33輸入對話控制用文件數(shù)據(jù)和HTML文件。
后端應用部32可向?qū)υ捒刂苽?cè)通信部31供給用戶ID、對話控制用文件數(shù)據(jù)和處理結(jié)果(應用結(jié)果)，同時可向Web服務器34供給比如HTML文件；后端應用部32可向數(shù)據(jù)庫32a供給數(shù)據(jù)庫檢索式(DB詢問)，利用該數(shù)據(jù)庫檢索式(DB詢問)就能夠檢索數(shù)據(jù)庫32a；此外，后端應用部32可向電子文件檢索部33供給URI。
后端應用部32在從對話控制側(cè)通信部31接收到用戶ID、URI以及參數(shù)值(對話結(jié)果)的情況下，根據(jù)這些內(nèi)容或程序進行處理。
即，在后端應用部32向電子文件檢索部33發(fā)送URI后，從電子文件檢索部33取得與該發(fā)送的URI相對應的對話控制用文件數(shù)據(jù)或HTML文件數(shù)據(jù)。后端應用部32向數(shù)據(jù)庫32a發(fā)送數(shù)據(jù)庫檢索式(DB詢問)，同時從該數(shù)據(jù)庫32a取得作為檢索結(jié)果的數(shù)據(jù)庫檢索結(jié)果(DB結(jié)果)。
另一方面，在從電子文件檢索部33取得對話控制用文件數(shù)據(jù)或HTML文件的情況下，首先，向數(shù)據(jù)庫發(fā)送數(shù)據(jù)庫檢索式(DB詢問)。此外，作為結(jié)果，從數(shù)據(jù)庫供給數(shù)據(jù)庫檢索結(jié)果(DB結(jié)果)。
然后，后端應用部32將所取得的對話控制用文件數(shù)據(jù)或根據(jù)所獲得的對話控制用文件數(shù)據(jù)而生成的對話控制用文件數(shù)據(jù)與用戶ID一起發(fā)送到對話控制通信部。在該對話控制用文件數(shù)據(jù)中，可包括數(shù)據(jù)庫檢索結(jié)果(DB結(jié)果)或其加工結(jié)果、畫面終端5的操作結(jié)果(Web結(jié)果)或其加工結(jié)果、參數(shù)值(對話結(jié)果)或其加工結(jié)果的信息。
后端應用部32將所取得的HTML文件或根據(jù)已獲得的HTML文件而生成的HTML文件與用戶ID一起發(fā)送到Web服務器34。在該HTML文件中，可包含數(shù)據(jù)庫檢索結(jié)果(DB結(jié)果)或其加工結(jié)果、Web結(jié)果或其加工結(jié)果、參數(shù)值(對話結(jié)果)或其加工結(jié)果的信息。
后端應用部32在從數(shù)據(jù)庫取得數(shù)據(jù)庫檢索結(jié)果(DB結(jié)果)的情況下，根據(jù)其內(nèi)容或程序向數(shù)據(jù)庫32a發(fā)送數(shù)據(jù)庫檢索式(DB詢問)。另外，從數(shù)據(jù)庫32a取得數(shù)據(jù)庫檢索結(jié)果(DB結(jié)果)。
后端應用部32向電子文件檢索部33供給URI，從電子文件檢索部33取得與該URI相對應的對話控制用文件數(shù)據(jù)或HTML文件數(shù)據(jù)。
后端應用部32將處理結(jié)果(應用結(jié)果)與用戶ID一起供給對話控制側(cè)通信部31。這里，處理結(jié)果(應用結(jié)果)可包括數(shù)據(jù)庫檢索結(jié)果(DB結(jié)果)或其加工結(jié)果、Web結(jié)果或其加工結(jié)果、參數(shù)值(對話結(jié)果)或其加工結(jié)果的信息。
然后，后端應用部32在從Web服務器34獲得用戶ID、URI和畫面終端5的操作結(jié)果(Web結(jié)果)的情況下，根據(jù)這些內(nèi)容或程序進行處理。
即，首先，后端應用部32向電子文件檢索部33發(fā)送URI，從電子文件檢索部33取得與該URI相對應的對話控制用文件數(shù)據(jù)或HTML文件數(shù)據(jù)。然后，后端應用部32向數(shù)據(jù)庫32a發(fā)送數(shù)據(jù)庫檢索式(DB詢問)，作為結(jié)果，從數(shù)據(jù)庫32a取得數(shù)據(jù)庫檢索結(jié)果(DB結(jié)果)。
將處理結(jié)果(應用結(jié)果)與用戶ID一起發(fā)送到對話控制側(cè)通信部31。這里，處理結(jié)果(應用結(jié)果)可包括數(shù)據(jù)庫檢索結(jié)果(DB結(jié)果)或其加工結(jié)果、畫面終端5的操作結(jié)果(Web結(jié)果)或其加工結(jié)果、參數(shù)值(對話結(jié)果)或其加工結(jié)果的信息。
電子文件檢索部33可從后端應用部32輸入URI，同時電子文件檢索部33可向后端應用部32輸出對話控制用文件數(shù)據(jù)和HTML文件數(shù)據(jù)。
在這樣構(gòu)成的電子文件檢索部33從后端應用部32取得URI時，首先，檢索URI對應表數(shù)據(jù)庫33b。在URI對應表數(shù)據(jù)庫33b中記錄有對所取得的URI的對話控制用文件數(shù)據(jù)和HTML文件數(shù)據(jù)的識別符。接著，以該URI作為檢索關鍵詞檢索該識別符。
然后，電子文件檢索部33根據(jù)已檢索到的識別符取得對話控制用文件數(shù)據(jù)和HTML文件數(shù)據(jù)中至少一方的文件數(shù)據(jù)。接著，電子文件檢索部33將已取得的對話控制用文件數(shù)據(jù)或HTML文件數(shù)據(jù)發(fā)送到后端應用部32。
由于Web服務器34與已有公知的Web服務器相同，故省略其說明。
如上所述，構(gòu)成該第一實施例的語音系統(tǒng)后，用戶就能夠用語音終端2和畫面終端5來利用語音識別系統(tǒng)。
如上面已說明的那樣，按照該第一實施例，經(jīng)公共線路交換網(wǎng)1，由語音信息提供裝置3進行來自語音終端2的語音的識別，再由畫面信息提供裝置8經(jīng)網(wǎng)絡4向畫面終端5提供信息，并且由對話控制裝置7進行語音信息提供裝置3和畫面信息提供裝置8的相互控制，由此，在語音終端2或畫面終端5中，分別連接到公共線路交換網(wǎng)1或網(wǎng)絡4上，而僅僅具有可進行通信的功能，就能夠進行語音識別的系統(tǒng)和顯示畫面的控制，因此，即使是只具有便攜電話水平的性能的終端，也能夠同時使用語音識別、接觸輸入、語音輸出和畫面顯示，并且可控制使用這些功能的對話。
(第二實施例)下面說明本發(fā)明的第二實施例的對話系統(tǒng)，圖8表示語音終端和畫面終端與該第二實施例的對話系統(tǒng)連接的狀態(tài)。
在第二實施例的對話系統(tǒng)中，與第一實施例不同，作為語音終端2連接的網(wǎng)絡是采用包含公共線路交換網(wǎng)1等的寬帶網(wǎng)41。
在第二實施例的對話系統(tǒng)中，與第一實施例不同，不設置對話控制裝置7，可從畫面信息提供裝置42直接向語音信息提供裝置3提供語音XML文件數(shù)據(jù)。
有關除此以外的構(gòu)成與第一實施例相同，所以在第二實施例中，僅僅說明畫面信息提供裝置42。圖9表示第二實施例的畫面信息提供裝置42的構(gòu)成。
如圖9所示，該第二實施例的畫面信息提供裝置42由語音現(xiàn)場通信部51、用戶管理部52、可檢索數(shù)據(jù)庫53的后端應用部53、可檢索對話控制文件組組數(shù)據(jù)庫54a、URI對應表數(shù)據(jù)庫54b和HTML文件組數(shù)據(jù)庫54c的電子文件檢索部54以及Web服務器55構(gòu)成。
語音現(xiàn)場通信部51可從音信息提供裝置3輸入語音XML文件的URI、密碼(主叫人ID)和語音識別結(jié)果(Rec Result)，同時可從用戶管理部52輸入密碼(主叫人ID)、語音XML文件數(shù)據(jù)和語音處理的中斷命令信號。
語音現(xiàn)場通信部51可向音信息提供裝置3發(fā)送密碼(主叫人ID)、語音XML文件和語音處理的中斷命令信號，同時可向用戶管理部52供給密碼(主叫人ID)和語音識別結(jié)果。
該語音現(xiàn)場通信部51在與音信息提供裝置3之間進行網(wǎng)上信息塊的度對話期間管理，使該網(wǎng)上信息塊包含密碼(主叫人ID)，就能夠使語音終端2的用戶對應音信息提供裝置3和畫面信息提供裝置42。
這樣構(gòu)成的語言部位通信部51從音信息提供裝置3接收密碼(主叫人ID)和語音XML文件的URI。并且，在來自音信息提供裝置3的接收內(nèi)容中不包含網(wǎng)上信息塊的情況下，就新生成網(wǎng)上信息塊。語音現(xiàn)場通信部51將存在于所要求的URI內(nèi)的語音XML文件與密碼(主叫人ID)一起發(fā)送到音信息提供裝置3。
另一方面，語音現(xiàn)場通信部51在從語音信息提供裝置3接收到密碼(主叫人ID)和語音識別結(jié)果的情況下，將該密碼(主叫人ID)和語音識別結(jié)果發(fā)送到用戶管理部52。在從用戶管理部52向語音通信部51輸入了密碼(主叫人ID)和中斷命令信號的情況下，語音現(xiàn)場通信部51將該密碼(主叫人ID)和中斷命令信號發(fā)送到語音信息提供裝置3。
用戶管理部52可從語音現(xiàn)場通信部51輸入密碼(主叫人ID)和語音識別結(jié)果，同時可輸入用戶ID和語音XML文件數(shù)據(jù)。
用戶管理部52可向語音現(xiàn)場通信部51供給密碼(主叫人ID)、語音XML文件數(shù)據(jù)和中斷命令信號，同時可向后端應用部53供給用戶ID和參數(shù)值(對話結(jié)果)。
這樣構(gòu)成的用戶管理部52中按照與第一實施例的用戶狀態(tài)管理部23(參照圖2)中相同的方法來進行管理，使密碼(主叫人ID)和用戶ID相對應。
用戶管理部52在從語音現(xiàn)場通信部51供給密碼(主叫人ID)和語音識別結(jié)果時，將密碼(主叫人ID)變換為用戶ID，并與參數(shù)值(對話結(jié)果)一起發(fā)送到后端應用部52。在第二實施例中，語音識別結(jié)果和參數(shù)值(對話結(jié)果)同值。
用戶管理部52在從后端應用部53取得了用戶ID和語音XML文件數(shù)據(jù)的情況下，按照其輸入的定時，進行互不相同的處理。
即，在用戶管理部52向語音現(xiàn)場通信部51發(fā)送用戶ID和語音XML文件數(shù)據(jù)后，從語音現(xiàn)場通信部51取得語音識別結(jié)果之前，從后端應用部53供給用戶ID和語音XML文件的情況下，用戶管理部52將用戶ID變換為密碼(主叫人ID)，并將密碼(主叫人ID)、中斷命令信號和語音XML文件發(fā)送到語音現(xiàn)場通信部51。
另一方面，用戶管理部52在向語音現(xiàn)場通信部51發(fā)送語音XML文件數(shù)據(jù)后，從語音現(xiàn)場通信部51取得語音識別結(jié)果，然后，從后端應用部53，供給用戶ID和語音XML文件的情況下，用戶管理部52將用戶ID變換為密碼(主叫人ID)，并將該密碼(主叫人ID)和從后端應用部53供給的語音XML文件發(fā)送到語音現(xiàn)場通信部51。
后端應用部53和電子文件檢索部54中，與第一實施例的不同之處在于用語音XML文件數(shù)據(jù)代替第一實施例中的對話控制用文件數(shù)據(jù)。由于其它構(gòu)成與第一實施例的相同，故省略其說明。Web服務器55中的輸入、輸出和處理與現(xiàn)有技術的Web服務器中的相同。
按照第二實施例，可獲得與第一實施例相同的效果，同時由于畫面信息提供裝置42具有第一實施例的對話控制裝置和畫面信息提供裝置這兩者的功能，所以與第一實施例相比較，可簡化對話系統(tǒng)的構(gòu)成。
(第三實施例)下面來說明本發(fā)明的第三實施例的對話系統(tǒng)，圖10表示第三實施例的對話系統(tǒng)。
如圖10所示，在該第三實施例的對話系統(tǒng)中，與第一實施例不同，分析執(zhí)行語音XML文件數(shù)據(jù)的裝置(語音XML分析執(zhí)行裝置)設置在融合了語音終端2和畫面終端5的用戶終端。
即，第三實施例的對話系統(tǒng)是把用戶終端61、語音識別服務器62、語音合成服務器63和畫面信息提供裝置64連接在網(wǎng)絡60上而構(gòu)成的。
用戶終端61至少包括語音輸入輸出部61a、畫面輸入輸出部61b和語音XML分析執(zhí)行部61c。
語音輸入輸出部61a具有與第一實施例的語音終端2相同的功能；畫面輸入輸出部61b具有與第一實施例的畫面終端相同的功能；語音XML分析執(zhí)行部61c具有與第一實施例的語音XML分析執(zhí)行裝置相同的功能。
具有上述構(gòu)成的用戶終端61中，可由用戶直接輸入語音、DTMT、文件信息和指向信息。該用戶終端61中，可經(jīng)網(wǎng)絡60從語音識別服務器62接收語音識別結(jié)果(記錄結(jié)果)；可從語音合成服務器63接收語音信號；可從畫面信息提供裝置64接收比如HTML文件數(shù)據(jù)、語音XML文件數(shù)據(jù)等電子信息。
在該用戶終端61中，在可識別的狀態(tài)下，可直接向用戶輸出語音和畫面信息。該用戶終端61可經(jīng)網(wǎng)絡60向語音識別服務器62發(fā)送語音信號、語音識別語法文件的URI以及語音識別對象的詞匯；可向語音合成服務器63發(fā)送語音引導用文件的URI和語音合成用文本；還可向畫面信息提供裝置64發(fā)送電子信息的URI、用來識別用戶終端的識別符(下稱用戶ID)和語音識別結(jié)果(記錄結(jié)果)。
上述那樣構(gòu)成的用戶終端中，在與畫面信息提供裝置64之間進行網(wǎng)上信息塊的對話期間管理。這樣，使該網(wǎng)上信息塊內(nèi)包含有用戶ID，畫面信息提供裝置64就可識別用戶終端61。
一旦用戶向用戶終端61輸入文件信息或指向信息、URI以及語音識別結(jié)果，這些信息數(shù)據(jù)就被發(fā)送到畫面信息提供裝置64。另外，如果用戶終端61從畫面信息提供裝置64接收與畫面顯示有關的電子信息，就在規(guī)定的畫面上顯示出基于電子信息的信息。
如果用戶終端61從畫面信息提供裝置64接收語音XML文件數(shù)據(jù)，則在用戶終端61的語音XML分析執(zhí)行部中分析執(zhí)行該語音XML文件數(shù)據(jù)。
在用戶終端61接收到的語音XML文件數(shù)據(jù)內(nèi)存在執(zhí)行語音識別的記述的情況下，用戶終端61向語音識別服務器62發(fā)送要求識別的信號，并取得其識別結(jié)果，在請求識別的信號中，包括語音識別語法文件的URI或成為識別對象的詞匯的信息數(shù)據(jù)。
在于用戶終端61接收到的語音XML文件數(shù)據(jù)內(nèi)存在進行語音合成的記述的情況下，用戶終端61向語音合成服務器63發(fā)送要求語音合成的信號，并取得其合成結(jié)果，在要求合成的信號中，包括語音合成用文本。
在于用戶終端61接收到的語音XML文件數(shù)據(jù)內(nèi)存在語音引導用文件的輸出的記述的情況下，用戶終端61向語音合成服務器63發(fā)送要求語音引導的信號，在要求語音引導的信號中，包括語音引導用文件的URI的信息數(shù)據(jù)。
另外，在用戶終端61接收到的語音XML文件數(shù)據(jù)內(nèi)存在取得語音XML文件數(shù)據(jù)的記述的情況下，向由URI指定的存儲地址發(fā)送要求語音XML文件數(shù)據(jù)的信號。
語音識別服務器62中，可從用戶終端61經(jīng)網(wǎng)絡60接收語音識別語法文件的URI和語音識別對象詞匯。
語音識別服務器62可經(jīng)網(wǎng)絡60向用戶終端61發(fā)送語音識別結(jié)果(記錄結(jié)果)。
該語音識別服務器62通過分析從用戶終端61取得的語音信號來進行語音識別。在該語音識別時，使用與語音信號一起取得的語音識別語法文件的URI或語音識別對象詞匯。在使用它們中的語音識別語法文件的URI的情況下，從相應的URI取得語音識別語法文件，將其用于語音識別。該語音識別的結(jié)果作為語音識別結(jié)果(記錄結(jié)果)，由語音識別服務器62經(jīng)網(wǎng)絡60返回發(fā)送到用戶終端61。
語音合成服務器63可從用戶終端61接收語音引導用文件的URI和語音合成用文本，同時可經(jīng)網(wǎng)絡60向用戶終端61發(fā)送語音信號。
該語音合成服務器63在接收到從用戶終端61取得的語音合成用文本的情況下，執(zhí)行下面兩種處理中的至少一種處理，并把語音信號返回發(fā)送到用戶終端61。即，語音合成服務器63在把從用戶終端61取得的語音合成用文本變換為語音信號后，經(jīng)網(wǎng)絡60將該語音返回發(fā)送到用戶終端61，或者根據(jù)語音合成用文本檢索語音文件，將檢出的語音文件的內(nèi)容變換為語音信號，然后經(jīng)網(wǎng)絡60，將其返回發(fā)送到用戶終端61。
在語音合成服務器63從用戶終端61接收到URI的情況下，根據(jù)該接收到的URI，檢索語音引導用文件，將檢出的語音引導用文件的內(nèi)容變換為語音信號，然后經(jīng)網(wǎng)絡60，將其返回發(fā)送到用戶終端61。
畫面信息提供裝置64是與所謂的第二實施例的畫面信息提供裝置42相同的裝置，具有第一實施例的畫面信息提供裝置8和對話控制裝置7。
即，畫面信息提供裝置64可從用戶終端61接收電子信息的URI、用戶ID和語音識別結(jié)果(記錄結(jié)果)，同時可向用戶終端61發(fā)送電子信息。
在像上述那樣構(gòu)成的第三實施例的對話系統(tǒng)中，可具有與第一實施例相同的效果，同時在用戶終端61中，由于分析執(zhí)行語音XML文件數(shù)據(jù)，所以能夠分散語音識別的處理的負荷，并能夠?qū)崿F(xiàn)對話系統(tǒng)處理高速化。
上面具體說明了本發(fā)明的實施例，但是，本發(fā)明不限于上述實施例，可實現(xiàn)基于本發(fā)明的技術構(gòu)思的各種變形。
比如，在上述實施例中所例舉的對話控制用文件數(shù)據(jù)只不過是個例子，可根據(jù)需要，使用與其不同的對話控制用文件數(shù)據(jù)。
另外，比如，在上述第一實施例中，語音信息提供裝置3、語音對話用數(shù)據(jù)提供裝置6、對話控制裝置7和畫面信息提供裝置8分別由各自不同的計算機構(gòu)成，但是，該語音信息提供裝置3、語音對話用數(shù)據(jù)提供裝置6、對話控制裝置7和畫面信息提供裝置8中的至少2個裝置也可由同一計算機構(gòu)成。
另外，比如，在上述實施例中，語音終端2和畫面終端5分別由不同的計算機構(gòu)成，但是該語音終端2和畫面終端5也可由同一終端構(gòu)成。即，語音終端2和畫面終端5既可由不同的終端構(gòu)成，也可由同一終端構(gòu)成。
還有，比如，在上述實施例中，語音終端2和語音信息提供裝置3經(jīng)公共線路交換網(wǎng)1，相互可通信地連接起來，但是，也可通過局域網(wǎng)(LAN)或互聯(lián)網(wǎng)等的寬帶網(wǎng)絡連接起來。另外，作為網(wǎng)絡也可由語音超級IP(voiceover IP)等構(gòu)成。
比如，在上述第一實施例中，后端應用部32使用HTML文件作為一面從電子文件檢索部33供給一面供給Web服務器34的文件數(shù)據(jù)，但是該HTML文件終歸是一個實例，可采用HTML文件以外的數(shù)據(jù)。比如，也可采用利用其它置標語言的文件數(shù)據(jù)，還可采用包含用公共網(wǎng)關接口(CommonGateway Interface)、活動服務器頁面(Active Server Pages)、Java(注冊商標)轉(zhuǎn)租頁面、Java服務器頁面(Java Server Pages)等生成的文件的文件數(shù)據(jù)。
如上所述，按照本發(fā)明，由于可同時使用語音與畫面檢索存儲在網(wǎng)絡上的計算機中的信息，并在語音信息提供裝置或語音識別裝置中進行語音識別，所以用戶不購買新的軟件或硬件，就能夠利用便攜式電話等已有裝置，在便攜式的電話等移動環(huán)境中使用通信終端。
按照本發(fā)明，由于語音信息提供裝置和對話控制裝置可與畫面信息提供裝置進行通信，所以該畫面信息提供裝置的運營商不投入進行語音識別的裝置，就能夠向持有第一通信終端和第二通信終端或它們組合成的通信終端的用戶進行可有語音對話處理實現(xiàn)操作的信息提供。
按照本發(fā)明，由于對話控制裝置可根據(jù)從畫面信息提供裝置取得的電子信息生成語音對話用信息，所以服務器運營商不必要求專門知識，就能夠進行可語音對話處理操作的信息提供。
按照本發(fā)明的第五項發(fā)明，由于可在對話控制裝置中，根據(jù)情況切換輸入輸出裝置，所以在具有該對話控制裝置的對話系統(tǒng)中，一面輸入固有名詞一面從多個選擇分支進行選擇的情況下，利用語音識別，在二擇一等選擇分支少的情況下，利用接觸輸入等，可進行這樣情況的切換等的，有效的對話通信。
權(quán)利要求
1.一種對話系統(tǒng)，其特征在于該對話系統(tǒng)包括可輸出語音信息的語音信息提供裝置、可輸出畫面信息的畫面信息提供裝置以及可對所述語音信息提供裝置和所述畫面信息提供裝置發(fā)送接收電子信息的對話控制裝置；連接有至少可與所述畫面信息提供裝置之間進行通信的第一通信終端和至少可與所述語音信息提供裝置之間進行通信的第二通信終端；所述畫面信息提供裝置具有記錄發(fā)送到可顯示視覺信息的第一通信終端的第一電子信息和所述對話控制裝置中所使用的第二電子信息的記錄部，同時在從所述第一通信終端或所述對話控制裝置接收到信息的情況下，可根據(jù)所述接收到的信息進行向所述第一通信終端發(fā)送所述第一電子信息的處理和向所述對話控制裝置發(fā)送所述第二電子信息的處理中的至少一種處理；所述語音信息提供裝置在接收到由所述對話控制裝置生成的語音對話用信息的情況下可從所述對話控制裝置把基于所述語音對話用信息的語音信息發(fā)送到所述第二通信終端，同時在從所述第二通信終端接收到所述語音信息的情況下，可根據(jù)所述語音對話用信息識別所述接收到的語音信息，并生成語音識別結(jié)果，發(fā)送到所述對話控制裝置；所述對話控制裝置在從所述畫面信息提供裝置接收到所述第二電子信息的情況下，可根據(jù)所述第二電子信息生成語音對話用信息，發(fā)送到所述語音信息提供裝置，同時在從所述語音信息提供裝置接收到語音識別結(jié)果的情況下，可根據(jù)所述第二電子信息，將與所述語音識別結(jié)果有關的信息發(fā)送到畫面信息提供裝置。
2.根據(jù)權(quán)利要求1所述的對話系統(tǒng)，其特征在于所述畫面信息提供裝置、所述聲音信息提供裝置和所述對話控制裝置可經(jīng)網(wǎng)絡相互連接起來，同時可經(jīng)所述網(wǎng)絡連接所述第一通信裝置和所述第二通信裝置。
3.一種對話系統(tǒng)，其特征在于連接有畫面信息提供裝置和語音信息提供裝置；所述畫面信息提供裝置具有可記錄發(fā)送到能顯示視覺信息的第一通信終端的第一電子信息和所述語音信息提供裝置所使用的第二電子信息的記錄部，同時在從所述第一通信終端或所述語音信息提供裝置接收到信息的情況下，可進行把基于所述接收到的信息的所述第一電子信息發(fā)送到所述第一通信終端的處理和向語音信息提供裝置發(fā)送所述第二電子信息的處理中的至少一種處理；所述語音信息提供裝置在從所述畫面信息提供裝置接收到所述第二電子信息的情況下，可將基于所述第二電子信息的語音信息發(fā)送到能輸出語音的第二通信終端，同時在從所述第二通信終端接收到所述語音信息的情況下，可根據(jù)所述第二電子信息識別所述接收到的語音信息，并生成語音識別結(jié)果，將所述語音識別結(jié)果發(fā)送到所述畫面信息提供裝置。
4.根據(jù)權(quán)利要求1或3所述的對話系統(tǒng)，其特征在于所述第一通信終端和所述第二通信終端由同一終端構(gòu)成。
5.根據(jù)權(quán)利要求3所述的對話系統(tǒng)，其特征在于所述畫面信息提供裝置和語音信息提供裝置可經(jīng)網(wǎng)絡相互連接，同時可經(jīng)所述網(wǎng)絡連接第一通信終端或所述第二通信終端。
6.一種對話系統(tǒng)，其特征在于畫面信息提供裝置、對話控制裝置和語音識別裝置相互連接起來而構(gòu)成，同時可連接通信終端；所述畫面信息提供裝置具有可記錄發(fā)送到所述通信終端的第一電子信息和所述對話控制裝置中使用的第二電子信息的記錄部，同時在從所述通信終端或所述對話控制裝置接收到信息的情況下，可根據(jù)所述接收到的信息進行把所述第一電子信息發(fā)送到所述通信終端的處理和把所述第二電子信息發(fā)送到所述對話控制裝置的處理中的至少一種處理；所述對話控制裝置在從所述畫面信息提供裝置接收到所述第二電子信息的情況下，生成基于所述第二電子信息的語音對話用信息，并發(fā)送到所述通信終端，在從所述通信終端接收到語音識別結(jié)果的情況下，根據(jù)所述第二電子信息把與所述語音識別結(jié)果有關的信息發(fā)送到所述畫面信息提供裝置；所述語音識別裝置可從所述通信終端接收語音信息，識別所述接收到的語音信息，生成語音識別結(jié)果，并發(fā)送到所述通信終端。
7.根據(jù)權(quán)利要求6所述的對話系統(tǒng)，其特征在于所述通信終端在從所述畫面信息提供裝置接收到所述第一電子信息的情況下，可輸出所述第一電子信息或?qū)λ龅谝浑娮有畔⑦M行了加工的信息；所述通信終端在進行了接觸輸入的情況下，可根據(jù)所述第一電子信息將進行了所述接觸輸入的信息發(fā)送到所述畫面信息提供裝置；所述通信終端在從所述對話控制裝置接收到所述語音對話用信息的情況下，可根據(jù)所述語音對話用信息控制語音的輸入或語音的輸出；所述通信終端在進行了語音的輸入的情況下，可根據(jù)所述語音對話用信息將所述語音發(fā)送到所述語音識別裝置；所述通信終端在從所述語音識別裝置接收到所述語音識別結(jié)果的情況下，可根據(jù)所述語音對話用信息將與所述語音識別有關的信息發(fā)送到所述對話控制裝置。
8.根據(jù)權(quán)利要求1，2或6所述的對話系統(tǒng)，其特征在于所述對話控制裝置在接收到所述語音識別結(jié)果的情況下，可根據(jù)所述第二電子信息和所述語音識別結(jié)果生成語音對話用信息。
9.一種對話系統(tǒng)，其特征在于連接畫面信息提供裝置和語音識別裝置而構(gòu)成，同時可連接能與所述畫面信息提供裝置和所述語音識別裝置進行通信的通信終端；所述畫面信息提供裝置具有可記錄發(fā)送到所述通信終端的第一電子信息和所述語音識別裝置使用的第二電子信息的記錄部，并且可根據(jù)從所述通信終端接收到的信息把所述第一電子信息和所述第二電子信息發(fā)送到所述通信終端；所述語音識別裝置識別從所述通信終端接收到的語音信息，并生成所述語音信息的語音識別結(jié)果，同時把所述語音識別結(jié)果發(fā)送到所述通信終端。
10.根據(jù)權(quán)利要求9所述的對話系統(tǒng)，其特征在于所述通信終端在從所述畫面信息提供裝置接收到所述第一電子信息的情況下可顯示所述第一電子信息或?qū)λ龅谝浑娮有畔⑦M行了加工的信息；在進行了接觸輸入的情況下可根據(jù)所述第一電子信息把已進行了接觸輸入的信息發(fā)送到所述畫面信息提供裝置；在從所述畫面信息提供裝置接收到所述第二電子信息的情況下可根據(jù)所述第二電子信息控制語音的輸入和語音的輸出；在進行了語音輸入的情況下可根據(jù)所述第二電子信息把語音的語音信息發(fā)送到所述語音識別裝置；在從所述語音識別裝置接收到語音識別結(jié)果的情況下可根據(jù)所述第二電子信息把與所述語音識別結(jié)果有關的信息發(fā)送到所述畫面信息提供裝置。
11.根據(jù)權(quán)利要求9所述的對話系統(tǒng)，其特征在于所述畫面信息提供裝置和所述語音識別裝置經(jīng)網(wǎng)絡相互連接，并且所述通信終端經(jīng)該網(wǎng)絡可在與所述畫面信息提供裝置和所述語音識別裝置之間進行通信。
12.一種對話控制裝置，其特征在于具有接收從連接在網(wǎng)絡上的第一電子計算機發(fā)送的電子信息的第一接收裝置；加工所述電子信息而生成語音對話用信息的生成裝置；向連接在所述網(wǎng)絡上同時能夠進行語音對話處理的第二電子計算機發(fā)送所述語音對話用信息的第一發(fā)送裝置；接收在所述第二電子計算機中進行的語音對話處理而生成的語音識別結(jié)果的第二接收裝置；根據(jù)所述語音識別結(jié)果或所述電子信息把與所述語音識別結(jié)果有關的信息發(fā)送到所述第一電子計算機的第二發(fā)送裝置。
13.根據(jù)權(quán)利要求12所述的對話控制裝置，其特征在于所述第一發(fā)送裝置和所述第二接收裝置由同一個第一發(fā)送接收裝置構(gòu)成，同時所述第二發(fā)送裝置和所述第一接收裝置由同一個第二發(fā)送接收裝置構(gòu)成。
14.根據(jù)權(quán)利要求12所述的對話系統(tǒng)，其特征在于根據(jù)所述語音識別結(jié)果進行所述語音對話用信息的生成。
15.一種對話系統(tǒng)，可連接具有接觸輸入、語音輸入、畫面顯示和語音輸出的用戶接口的通信終端；其特征在于具有接收基于所述通信終端發(fā)送的所述接觸輸入的電子信息的接收裝置；接收基于所述通信終端發(fā)送的所述語音輸入的語音信息的接收裝置；把所述畫面顯示用的電子信息發(fā)送到所述通信終端的發(fā)送裝置；把所述語音輸出用的語音信息發(fā)送到所述通信終端的發(fā)送裝置；根據(jù)基于所述接觸輸入的電子信息或基于所述語音輸入的語音信息使所述畫面顯示用的電子信息或所述語音輸出用的語音信息變化的裝置。
16.一種對話系統(tǒng)，可連接具有接觸輸入和畫面顯示的用戶接口的第一通信終端，同時可連接具有語音輸入和語音輸出的用戶接口的第二通信終端；其特征在于具有接收所述第一通信終端發(fā)送的基于所述接觸輸入的電子信息的接收裝置；接收所述第二通信終端發(fā)送的基于所述語音輸入的語音信息的接收裝置；把所述畫面顯示用的電子信息發(fā)送到所述第一通信終端的發(fā)送裝置；把所述語音輸出用的語音信息發(fā)送到所述第二通信終端的發(fā)送裝置；根據(jù)基于所述接觸輸入的電子信息或基于所述語音輸入的語音信息使畫面顯示用的電子信息或語音輸出用的語音信息變化的裝置。
17.根據(jù)權(quán)利要求1，2，3，4或16所述的對話系統(tǒng)，其特征在于從所述第一通信終端接觸輸入并發(fā)送第一用戶識別符，從所述第二通信終端發(fā)送第二用戶識別符，比較所述第一用戶識別符和所述第二識別符的異同，就能夠使所述第一通信終端和所述第二通信終端相對應。
18.根據(jù)權(quán)利要求1，2，3，4或16所述的對話系統(tǒng)，其特征在于在把所述第二通信終端與所述對話系統(tǒng)連接時，在所述對話系統(tǒng)中自動生成第一密碼數(shù)據(jù)，并發(fā)送到所述第二通信終端；在所述第二通信終端，把所述第一密碼數(shù)據(jù)進行語音輸出后，把所述第一通信終端連接到所述對話系統(tǒng)上時，從所述第一通信終端接觸輸入第二密碼數(shù)據(jù)，并發(fā)送到所述對話系統(tǒng)；在所述對話系統(tǒng)中，比較所述第一密碼數(shù)據(jù)和所述第二密碼數(shù)據(jù)的異同，就能夠使所述第一通信終端和所述第二通信終端相對應。
19.根據(jù)權(quán)利要求1，2，3，4或16所述的對話系統(tǒng)，其特征在于在所述第一通信終端連接到所述對話系統(tǒng)上時，在所述對話系統(tǒng)中自動生成第一密碼數(shù)據(jù)，并發(fā)送到所述第一通信終端；在所述第一通信終端，把所述第一密碼數(shù)據(jù)進行畫面輸出后，在所述第二通信終端與所述對話系統(tǒng)連接時，從所述第二通信終端把所述第二密碼數(shù)據(jù)發(fā)送到所述對話系統(tǒng)；在所述對話系統(tǒng)中，比較所述第一密碼數(shù)據(jù)和所述第二密碼數(shù)據(jù)的異同，就能夠使所述第一通信終端和所述第二通信終端相對應。
20.根據(jù)權(quán)利要求1，2，3，4或16所述的對話系統(tǒng)，其特征在于可把所述第一通信終端連接在至少連接了畫面信息提供裝置的第一網(wǎng)絡上，同時所述第二通信終端可連接在能夠與所述第二通信終端進行通信且具有多個分別記錄了位置信息的基站的第二網(wǎng)絡上；所述第二通信終端與第一基站通信的同時，在所述第一基站，除了所述第二通信終端以外而不存在通信中的通信終端時，在所述第一通信終端連接到所述第一網(wǎng)絡上時，可使所述第一通信終端和所述第二通信終端相對應。
全文摘要
提供一種對話系統(tǒng)，即使是非高性能、高功能的低性能終端，也能夠同時采用語音識別、接觸輸入、語音輸出和畫面顯示進行用語音的操作。該系統(tǒng)包括發(fā)送語音信息的語音裝置、發(fā)送畫面信息的畫面裝置和對語音裝置和畫面裝置發(fā)送接收信息的對話控制裝置，上述裝置分別連接在公共線路交換網(wǎng)和網(wǎng)絡上。語音終端連接在線路上，畫面終端連接在網(wǎng)絡上，語音終端與語音裝置之間以及畫面終端與畫面裝置之間能夠進行通信，對話控制裝置控制語音裝置與畫面裝置之間的相互通信。分別在語音終端和畫面終端之間發(fā)送接收語音信息和畫面信息，可同時進行語音輸入和接觸輸入。語音終端和畫面終端由不同的終端或同一用戶終端構(gòu)成。
文檔編號G10L15/22GK1445652SQ0312160
公開日2003年10月1日申請日期2003年3月14日優(yōu)先權(quán)日2002年3月14日
發(fā)明者牛田博英, 中嵨宏, 大本浩司申請人:歐姆龍株式會社

完整全部詳細技術資料下載