語音識別設備和用于提供響應信息的方法

文檔序號：2827261閱讀：174來源：國知局

語音識別設備和用于提供響應信息的方法
【專利摘要】提供一種語音識別設備和用于提供響應信息的方法。根據(jù)本公開的語音識別設備包括：提取器，被配置為從用戶的發(fā)音信號中提取代表用戶動作的第一表達元素和代表對象的第二表達元素；域確定器，被配置為基于分層域模型檢測出與提取的第一表達元素和第二表達元素有關(guān)的擴展域，并將與檢測出的多個擴展域有關(guān)的至少一個候選域確定為最終域；通信器，與外部設備執(zhí)行通信；控制器，被配置為控制通信器發(fā)送關(guān)于第一表達元素和第二表達元素的信息和關(guān)于確定的最終域的信息。
【專利說明】語音識別設備和用于提供響應信息的方法
[0001]本申請要求于2013年I月31日提交的第10-2013-0011292號韓國專利申請的優(yōu)先權(quán)，其中，所述專利申請的公開通過引用合并于此。
【技術(shù)領域】
[0002]與示例性實施例一致的方法和設備涉及一種語音識別設備和用于提供響應信息的方法，更具體地，涉及一種用于提供與用戶的發(fā)音相應的響應信息的語音識別設備以及用于提供響應信息的方法。
【背景技術(shù)】
[0003]當接收到用戶的發(fā)音時，現(xiàn)有技術(shù)的語音識別設備分析接收到的用戶的發(fā)音以確定用戶意圖的域(domain)，并基于確定的域提供關(guān)于用戶的發(fā)音的響應信息。
[0004]然而，隨著域在這樣的現(xiàn)有技術(shù)的語音識別設備中應該被提供的服務和多種域(有關(guān)區(qū)域)的服務變得多樣化并復雜，出現(xiàn)這樣的問題:語音識別設備確定了并非用戶意圖的域，并基于確定的非意圖的域來提供關(guān)于用戶的發(fā)音的響應信息。
[0005]例如，當從用戶接收到發(fā)音“有多少種動作片”時，關(guān)于這樣的發(fā)音可確定有關(guān)域的電視(TV)節(jié)目和/或視頻點播(V0D)，然而傳統(tǒng)的語音識別設備在不考慮這樣多域的可能性的情況下在多個域之中只檢測出一個域。例如，來自用戶的發(fā)音“有多少種動作片？ ”可包括關(guān)于在TV節(jié)目中提供的動作片的用戶意圖。然而，語音識別設備可以不管用戶的意圖從用戶的發(fā)音中任意地確定VOD有關(guān)的域，并可基于確定的VOD有關(guān)的域提供關(guān)于用戶的發(fā)音的響應信息。如此，在傳統(tǒng)的語音識別設備中，經(jīng)常發(fā)生這種情況:提供并非用戶意圖的響應信息，因此，為了提供意圖的響應信息，用戶必須忍受這樣的不便:不得不提供更詳細的發(fā)音。

【發(fā)明內(nèi)容】

[0006]一個或更多個示例性實施例提供用于提供與用戶的發(fā)音相應的響應信息的語音識別設備及其提供響應信息的方法。更具體地，一個或更多個示例性實施例在對話型系統(tǒng)中的提供關(guān)于用戶的發(fā)音的響應信息的語音識別設備中，在基于用戶發(fā)音可能的多個域之中根據(jù)用戶的意圖確定域，并基于確定的域提供關(guān)于用戶發(fā)音的響應信息。
[0007]根據(jù)示例性實施例的一方面，提供一種對話型語音識別設備，包括:提取器，被配置為從用戶的發(fā)音信號中提取代表用戶動作的第一表達元素和代表對象的第二表達元素；域確定器，被配置為基于預先確定的分層域模型檢測與提取的第一表達元素和第二表達元素有關(guān)的擴展域，并將與檢測出的擴展域有關(guān)的至少一個候選域確定為最終域；通信器，被配置為與外部設備執(zhí)行通信；控制器，被配置為控制通信器發(fā)送與第一表達元素和第二表達元素有關(guān)的信息和關(guān)于確定的最終域的信息。
[0008]分層域模型可包括下位概念的候選域和預先確定為候選域的上位概念的虛擬擴展域，在下位概念的候選域中，與第一表達元素相應的主動作和與第二表達元素相應的組件槽彼此匹配。
[0009]當檢測出與從提取器中提取的第一表達元素相應的主動作和與從提取器中提取的第二表達元素相應的組件槽彼此匹配的擴展域時，域確定器可使用多分類器以檢測與檢測出的擴展域有關(guān)的從屬候選域，當沒有檢測出所述擴展域時，檢測與第一表達元素相應的主動作和與第二表達元素相應的組件槽彼此匹配的候選域。
[0010]域確定器可使用至少一個二元分類器檢測在候選域之中的至少一個域和擴展域，其中，在候選域中，與第一表達元素相應的主動作和與第二表達元素相應的組件槽彼此匹配。
[0011]域確定器從提取的第一表達元素和第二表達元素中的至少一個和檢測出的候選域可理解用戶的意圖，以確定是否發(fā)生語境初始化，當確定還沒有發(fā)生語境初始化時，基于先前域?qū)⒃跈z測出的多個候選域之中的至少一個候選域確定為最終域，所述先前域是在接收到用戶的發(fā)音信號之前從用戶的先前發(fā)音確定的域。
[0012]當在檢測出的多個候選域之中的一個候選域與先前域彼此相應時，域確定器可將先前域確定為最終域。
[0013]當確定檢測出的候選域與先前域彼此不同或已發(fā)生了語境初始化時，域確定器可將在與檢測出的擴展域有關(guān)的至少一個候選域之中與代表用戶動作的第一表達元素有關(guān)的候選域確定為最終域。
[0014]當檢測出的候選域包括與代表用戶動作的第一表達元素相應的主動作信息時，域確定器可將檢測出的全部候選域確定為最終域。
[0015]當檢測出的候選域包括與代表用戶動作的第一表達元素相應的主動作信息時，域確定器可將由用戶選擇的候選域確定為最終域或任意選擇在檢測出的多個候選域之中的一個候選域作為最終域。
[0016]當存在多個先前域，所述多個先前域中的一個與所述多個候選域中的一個彼此相應并且該候選域包括與代表用戶動作的第一表達兀素相應的主動作信息時，域確定器可在檢測出的多個候選域之中將與先前域相應的候選域確定為最終域。
[0017]根據(jù)示例性實施例的一方面，提供一種在對話型語音識別設備中提供與用戶的發(fā)音相應的響應信息的方法，所述方法包括:從用戶的發(fā)音信號中提取代表用戶動作的第一表達兀素和代表對象的第二表達兀素；基于預先確定的分層域模型檢測出與提取的第一表達元素和第二表達元素有關(guān)的擴展域；將與檢測出的擴展域有關(guān)的至少一個候選域確定為最終域；將關(guān)于第一表達元素和第二表達元素的信息和關(guān)于確定的最終域的信息發(fā)送到外部設備。
[0018]分層域模型可包括下位概念的候選域和預先確定為候選域的上位概念的虛擬擴展域，在下位概念的候選域中，與第一表達元素相應的主動作和與第二表達元素相應的組件槽彼此匹配。
[0019]當檢測出與從提取器中提取的第一表達元素相應的主動作和與從提取器中提取的第二表達元素相應的組件槽彼此匹配的擴展域時，檢測擴展域的步驟可使用多分類器以檢測與檢測出的擴展域有關(guān)的從屬候選域，當沒有檢測出所述擴展域時，檢測與第一表達元素相應的主動作和與第二表達元素相應的組件槽彼此匹配的候選域。
[0020]檢測擴展域的步驟可使用至少一個二元分類器檢測在候選域之中的至少一個域和擴展域，其中，在候選域中，與第一表達元素相應的主動作和與第二表達元素相應的組件槽彼此匹配。
[0021]確定最終域的步驟可從提取的第一表達元素和第二表達元素中的至少一個和檢測出的候選域來理解用戶的意圖，以確定是否發(fā)生語境初始化，當確定還沒有發(fā)生語境初始化時，基于先前域?qū)⒃跈z測出的多個候選域之中的至少一個候選域確定為最終域，所述先前域是在接收到用戶的發(fā)音信號之前從用戶的先前發(fā)音確定的域。
[0022]確定最終域的步驟可包括:當在檢測出的多個候選域之中的一個候選域與先前域彼此相應時，將先前域確定為最終域。
[0023]當確定檢測出的候選域與先前域彼此不同或已發(fā)生了語境初始化時，確定最終域的步驟可將在與檢測出的擴展域有關(guān)的至少一個候選域之中與代表用戶動作的第一表達兀素有關(guān)的候選域確定為最終域。
[0024]當檢測出的候選域包括與代表用戶動作的第一表達元素相應的主動作信息時，確定最終域的步驟可將檢測出的全部候選域確定為最終域。
[0025]當檢測出的候選域包括與代表用戶動作的第一表達元素相應的主動作信息時，確定最終域的步驟可將由用戶選擇的候選域確定為最終域或任意選擇在檢測出的多個候選域之中的一個候選域作為最終域。
[0026]當存在多個先前域，所述多個先前域中的一個與所述多個候選域中的一個彼此相應并且該候選域包括與代表用戶動作的第一表達元素相應的主動作信息時，確定最終域的步驟可在檢測出的多個候選域之中將與先前域相應的候選域確定為最終域。
[0027]如前述，根據(jù)各種示例性實施例，對話型系統(tǒng)中的語音識別設備可考慮到關(guān)于用戶的發(fā)音的各種情況確定適合用戶的意圖的域，并可基于確定的域來提供關(guān)于用戶的發(fā)音的響應信息。
【專利附圖】

【附圖說明】
[0028]通過參照附圖描述特定示例性實施例，以上和/或其它方面將更清楚，其中:
[0029]圖1是根據(jù)示例性實施例的對話型系統(tǒng)的示例性實施例；
[0030]圖2是根據(jù)示例性實施例的語音識別設備的框圖；
[0031]圖3是根據(jù)示例性實施例的用于檢測候選域的分層域模型的示圖；
[0032]圖4是示出根據(jù)示例性實施例的屬于分層域模型的域中預先確定的主動作和每一個主動作的組件槽的示圖；
[0033]圖5是示出根據(jù)示例性實施例的屬于分層域模型中的全部域中預先確定的主動作和每一個主動作的組件槽的示圖；
[0034]圖6是根據(jù)示例性實施例的域確定器中對屬于分層域模型中的每一個分層的域分類的第一示圖；
[0035]圖7是根據(jù)示例性實施例的域確定器中對屬于分層域模型中的每一個分層的域分類的第二示圖；
[0036]圖8是根據(jù)示例性實施例的用于在對話型系統(tǒng)的語音識別設備中響應于用戶的發(fā)音提供響應信息的方法的流程圖；
[0037]圖9是根據(jù)示例性實施例的用于在語音識別設備中檢測出的候選域之中確定最終域的方法的流程圖。
【具體實施方式】
[0038]以下參照附圖更詳細地描述特定示例性實施例。
[0039]圖1是根據(jù)示例性實施例的對話型系統(tǒng)的示圖。
[0040]如圖1中所示，對話型系統(tǒng)包括語音識別設備100和顯示設備200。語音識別設備100通過顯示設備200接收用戶的發(fā)音信號(在下文中被稱作“發(fā)音”)，并確定接收到的用戶的發(fā)音屬于哪一個域。接下來，語音識別設備100可基于確定的域的對話模式來產(chǎn)生關(guān)于用戶的發(fā)音的響應信息。然而，本公開不限于此，語音識別設備100和顯示設備200可被實施為一個設備，并可收集用戶的發(fā)音，確定收集的用戶的發(fā)音屬于哪一個域，并基于確定的域的對話模式來產(chǎn)生關(guān)于用戶的發(fā)音的響應信息。
[0041]顯示設備200可以是智能TV，但這僅為示例性實施例，因此顯示設備可以被實施為各種電子裝置(諸如，移動電話/智能電話、桌面PC、筆記本、導航系統(tǒng)等)。顯示設備200將收集到的用戶的發(fā)音發(fā)送到語音識別設備100。如上所提，語音識別設備100確定從顯示設備200接收的用戶的發(fā)音屬于哪一個域，基于確定的從顯示設備200接收的用戶的發(fā)音屬于的域的對話型模式來產(chǎn)生關(guān)于用戶的發(fā)音的響應信息，并將產(chǎn)生的響應信息發(fā)送到顯示設備200。因此，顯示設備200可通過揚聲器將從語音識別設備接收的響應信息輸出或?qū)⑺鲰憫畔@示在屏幕上。
[0042]例如，當從用戶接收到發(fā)音“給我動作片！ ”，語音識別設備100分析接收到的發(fā)音并檢測出關(guān)于發(fā)音的至少一個候選域。更具體地，語音識別設備100可從發(fā)音“給我動作片！ ”中提取代表用戶動作“給我”的第一表達元素和代表對象“動作片”的第二表達元素。接下來，語音識別設備100可基于提取的第一表達元素和第二表達元素來確定用戶的意圖“search_program(genre) ”,并基于預先確定的分層域模型來確定是否存在包括“search_program (genre) ”的擴展域。在此，擴展域是預先確定為候選域的上位概念的虛擬域，其中候選域用于將擴展域確定為最終域。
[0043]當確定包括“search_program(genre) ”的擴展域是視頻內(nèi)容時，語音識別設備100檢測與“search_program(genre) ”相應的擴展域的從屬域。當屬于視頻內(nèi)容擴展域的從屬候選域是TV節(jié)目和VOD時，語音識別設備100可檢測與TV節(jié)目和VOD相應的候選域。
[0044]當檢測到這樣的候選域時，語音識別設備100可基于根據(jù)先前對話內(nèi)容預先確定的先前域和檢測到的候選域?qū)⒅辽僖粋€候選域確定為最終域。
[0045]例如，當根據(jù)先前對話內(nèi)容預先確定的先前域和檢測到的候選域是VOD時，語音識別設備100可將與VOD相應的候選域確定為最終域。當確定這樣的最終域時，語音識別設備100將關(guān)于預先提取的第一表達元素和第二表達元素的信息以及關(guān)于預先確定的最終域的信息發(fā)送到外部設備(未示出)。外部設備(未示出)可在與VOD相應的預先確定的最終域內(nèi)產(chǎn)生與用戶的發(fā)音有關(guān)的響應信息，并將產(chǎn)生的響應信息發(fā)送到語音識別設備100。然后語音識別設備100可將從外部設備(未示出)接收的響應信息發(fā)送到顯示設備200。然而，本公開不限于此，當與VOD相應的候選域被確定為最終域時，語音識別設備100可在確定的最終域內(nèi)基于預先提取的第一表達元素和第二表達元素來產(chǎn)生關(guān)于用戶的發(fā)音的響應信息，并將產(chǎn)生的響應信息發(fā)送到顯示設備200。因此，然后顯示設備200可通過揚聲器將從語音識別設備100接收的響應信息輸出或?qū)⑺鲰憫畔@示在屏幕上。
[0046]以下是關(guān)于在根據(jù)本公開的對話型系統(tǒng)中提供關(guān)于用戶的發(fā)音的響應信息的語音識別設備100的詳細解釋。
[0047]圖2是根據(jù)示例性實施例的語音識別設備的框圖。
[0048]如圖2中所示，語音識別設備100包括通信器110、語音識別器120、提取器130、域確定器140、控制器150和存儲單元160。
[0049]通信器110執(zhí)行與顯示設備200的數(shù)據(jù)通信，并接收由顯示設備200收集的用戶的發(fā)音。此外，通信器110可執(zhí)行與外部設備(未示出)的通信，并可發(fā)送用于產(chǎn)生關(guān)于用戶的發(fā)音的響應信息的關(guān)于確定的最終域的信息和關(guān)于從用戶的發(fā)音提取的表達元素的信息。通信器110可包括各種通信模塊(諸如，短距離無線通信模塊(未示出)等)。在此，短距離無線通信模塊是用于根據(jù)短距離無線通信方法(諸如，藍牙，Zigbee等)來執(zhí)行與位于附近的外部裝置的通信的模塊。
[0050]除了以上內(nèi)容，在通信器110中還可包括這樣的移動通信模塊:所述移動通信模塊根據(jù)各種移動通信標準(諸如，3G (第三代)、3GPP(第三代合作伙伴項目)、LTE (長期演進)等)接入移動通信網(wǎng)絡并執(zhí)行通信。
[0051]此外，通信器110可通過互聯(lián)網(wǎng)絡與web服務器(未示出)執(zhí)行通信，將各種搜索關(guān)鍵詞發(fā)送到web服務器(未示出)，并根據(jù)此接收web搜索結(jié)果。在此，搜索關(guān)鍵詞可包括各種關(guān)鍵詞(諸如，天氣有關(guān)的關(guān)鍵詞(例如，區(qū)域的名稱、溫度、降雨概率等)、內(nèi)容有關(guān)的關(guān)鍵詞(例如，電影片名、電影發(fā)行日期、曲名、歌手等))。各種關(guān)鍵詞可被預存在存儲單元160中。
[0052]語音識別器120識別通過通信器110從顯示設備200接收的用戶的發(fā)音，并將識別的發(fā)音轉(zhuǎn)換為文本。根據(jù)示例性實施例，語音識別器120可使用語音轉(zhuǎn)文本(STT)算法以將接收到的用戶的發(fā)音轉(zhuǎn)換為文本。當通過語音識別器120將用戶的發(fā)音轉(zhuǎn)換為文本時，提取器130從轉(zhuǎn)換為文本的用戶的發(fā)音中提取表達元素。更具體地，提取器130可基于預存在存儲單元160中的語料表在從用戶的發(fā)音轉(zhuǎn)換的文本中提取表達元素。在此，表達元素是在用戶的發(fā)音內(nèi)用于執(zhí)行用戶請求的操作的關(guān)鍵詞，并可被分類為代表用戶動作的第一表達元素和代表主要特征的第二表達元素。例如，在用戶的發(fā)音“給我動作片！ ”的情況下，提取器130可提取代表用戶動作“給我！ ”的第一表達元素和代表對象“動作片”的第二表達元素。
[0053]當?shù)谝槐磉_元素和第二表達元素被提取到時，域確定器140基于預先確定并存儲在存儲單元160中的分層域模型來檢測與第一表達元素和第二表達元素有關(guān)的擴展域。接下來，域確定器140將與檢測到的擴展域有關(guān)的至少一個候選域確定為最終域。在此，預先確定并存儲在存儲單元160中的分層域模型是分層地包括下位概念的候選域和預先確定為每一個候選域的上位概念的虛擬擴展域的域模型，在候選域中，與每一個發(fā)音中提取的第一表達元素相應的主動作和與第二表達元素相應的組件槽(component slot)彼此匹配。
[0054]因此，域確定器140可基于這樣的分層域模型檢測與第一表達元素和第二表達元素有關(guān)的擴展域，并當檢測到這樣的擴展域時，域確定器140可將與檢測到的擴展域有關(guān)的至少一個候選域確定為最終域。
[0055]控制器150控制語音識別設備100的每一個配置的整體操作。主要地，控制器150可控制通信器110發(fā)送關(guān)于通過域確定器140確定的最終域中的預先提取的第一表達元素和第二表達元素的信息。因此，外部裝置可在預先確定的最終域內(nèi)產(chǎn)生與用戶的發(fā)音有關(guān)的響應信息，并將產(chǎn)生的響應信息發(fā)送到語音識別設備100，控制器150可將從外部裝置接收的響應信息通過通信器110發(fā)送到顯示設備200。然而，本公開不限于此，控制器150可在由域確定器140確定的最終域內(nèi)基于預先提取的第一表達元素和第二表達元素來自身產(chǎn)生關(guān)于用戶的發(fā)音的響應信息，并將產(chǎn)生的響應信息發(fā)送到顯示設備200。
[0056]預先確定并存儲在存儲單元160中的分層域模型可包括如圖3中的分層結(jié)構(gòu)。
[0057]圖3是根據(jù)示例性實施例的用于檢測候選域的分層域模型的示例性示圖。
[0058]如圖3中所示，用于檢測候選域的分層域模型包括標準的顯示用戶的意圖和可處理域之間關(guān)系的分層結(jié)構(gòu)。分層域模型可包括具有樹狀的分層結(jié)構(gòu)，包括:最高分層等級、中間分層等級和最低分層等級等。最高分層等級是與虛擬擴展域相應的主題節(jié)點，其中，虛擬擴展域被預先確定為與候選域相應的上位概念，候選域是產(chǎn)生關(guān)于用戶的發(fā)音的響應信息的區(qū)域。中間分層等級是關(guān)于預先確定為上位概念的從屬概念的虛擬擴展域的主題節(jié)點。此外，最低分層等級是與預先確定為中間概念的從屬概念的候選域相應的主題節(jié)點。
[0059]例如，如圖3中所示，在最低分層等級中，可預先確定每一個候選域(TV節(jié)目10、V0D20和TV裝置30)。在這樣的情況下，在中間分層等級，可預先確定:擴展域TV頻道40和擴展域視頻內(nèi)容50，擴展域TV頻道40是候選域TV節(jié)目10和TV裝置30中的每一個的中間概念，擴展域視頻內(nèi)容50是候選域TV節(jié)目10和V0D20中的每一個的中間概念。
[0060]也就是說，在分層域模型的最低分層等級中，可預先確定用于確定用于產(chǎn)生關(guān)于用戶的每一個發(fā)音的響應信息的區(qū)域的候選域，在中間分層等級中，可預先確定中間概念的擴展域，其中，中間概念的擴展域包括在預先確定為下位概念的候選域之中的至少兩個候選域。此外，在最高分層等級中，可預先確定包括全部被預先確定為下位概念的候選域的上位概念的擴展域。如上所提，每一個分層預先確定的每一個域可被預先確定為用于確定每一個域的主動作，并且如圖4中每一個主動作的每一個組件槽彼此匹配。
[0061]圖4是示出根據(jù)示例性實施例的包括在分層域模型中的域中預先確定的主動作和每一個主動作的組件槽的示例性示圖，圖5是示出根據(jù)示例性實施例的包括在分層域模型中的所有模型中預先確定的主動作和每一個主動作的組件槽的示例性示圖。
[0062]如圖4中所示，例如，關(guān)于TV節(jié)目10的域可以是在如以上圖3中所解釋的最低分層等級中預先確定的候選域。關(guān)于TV節(jié)目10的候選域可包括與代表對象的第二表達元素相應的組件槽11。此外，關(guān)于TV節(jié)目10的候選域可包括用戶動作腳本12，在用戶動作腳本中，將與關(guān)于用戶動作的第一表達元素相應的主動作和組件槽11彼此匹配。如附圖所示，關(guān)于TV節(jié)目10的候選域可包括用戶動作腳本12 (諸如，“play_program (channel_name, channel_no, genre, time, title)”、〃search_program(channel_name, channel_no, genre, time, title) 〃)。因此,包括在分層等級模型中的每一個分層中的每一個域可包括通過將不同的主動作和每一個主動作的組件槽組合而產(chǎn)生的用戶動作腳本。
[0063]因此，域確定器140可基于這樣的預先確定的分層域模型來檢測包括用戶動作腳本的至少一個候選域，在用戶動作腳本中，將與提取器130中提取的第一表達元素和第二表達元素分別相應的主動作和組件槽彼此匹配。例如，參照圖5，提取器130可從關(guān)于發(fā)音“給我(廣播節(jié)目的名稱)”的文本中提取第一表達元素“給我！ ”和第二表達元素“(廣播節(jié)目的名稱)”。
[0064]在這種情況下，域確定器140確定用戶動作腳本是否存在于擴展域中，其中，用戶動作腳本通過將與第一表達元素“給我！ ”相應的主動作和與第二表達元素“(廣播節(jié)目的名稱)”相應的組件槽結(jié)合而被產(chǎn)生。在前述示例中，與第一表達元素“給我！ ”相應的主動作可以是“play_pix)gram”，與第二表達元素“(廣播節(jié)目的名稱)”相應的組件槽可以是“title”。因此，與“給我(廣播節(jié)目的名稱)”相應的用戶動作腳本可以是“play_program (title) ”。因此,域確定器140確定在擴展域中是否包括用戶動作腳本。當確定在中間分層的擴展域中包括關(guān)于“play_program(title) ”的用戶動作腳本時,域確定器140可檢測出作為擴展域的域視頻內(nèi)容(50)域。
[0065]當沒有檢測出與在用戶的發(fā)音中提取的第一表達元素和第二表達元素有關(guān)的擴展域時，域確定器140可檢測與第一表達元素和第二表達元素有關(guān)的候選域。
[0066]例如，提取器130可從與發(fā)音“立刻為我找出空中動作片”相應的文本中提取第一表達元素“為我找出！ ”和第二表達元素“動作片”以及“立刻”。當提取到第一表達元素和第二表達元素時，域確定器140確定通過將與第一表達元素“為我找出！ ”相應的主動作和與第一表達元素相應的每一個第二表達元素“立刻”和“動作片”相應的組件槽組合而產(chǎn)生的用戶動作腳本是否存在于擴展域中。在前述示例中，與第一表達元素相應的主動作可以是“searCh_pix)gram”，與每一個第二表達元素“立刻”和“動作片”分別相應的組件槽可以是“time”和“genre”。因此，與“立刻為我找出空中動作片”相應的用戶動作腳本可以是usearch_program(time, genre)”。
[0067]因此，域確定器140確定在擴展域中是否包括這樣的用戶動作腳本。當確定在擴展域中不包括關(guān)于“search_program(time, genre) ”的用戶動作腳本時,域確定器140可檢測包括“search_program(time, genre) ”、與用戶動作腳本相應的、包括在屬于最低等級的多個候選域中的候選域。當包括“search_program(time, genre) ”的候選域是TV節(jié)目10時，域確定器140可檢測出作為候選域的域TV節(jié)目10域。
[0068]當檢測出候選域時，域確定器140可基于先前域確定是否將檢測出的候選域確定為最終域。當基于與在用戶發(fā)音中提取的第一表達元素和第二表達元素分別相應的主動作和組件槽而檢測出擴展域時，如圖6和圖7，可通過將屬于分層域模型中的每一個分層等級中的域分類來檢測出擴展域。
[0069]圖6是根據(jù)示例性實施例的域確定器中將屬于分層域模型中的每一個分層等級中的域分類的第一示例性示圖。
[0070]如圖6中所示，域確定器140可包括多分類器141和擴展域解釋器142。多分類器141識別屬于分層域模型的每一個分層等級的用戶的發(fā)音，并檢測與從轉(zhuǎn)換的文本中提取的第一表達元素和第二表達元素有關(guān)的至少一個候選域。此外，擴展域解釋器142將從多分類器141中檢測出的屬于候選域的上位概念的域確定為擴展域。
[0071]如前述示例中，當從用戶的發(fā)音“為我找出動作片！ ”中提取到第一表達元素“為我找出！ ”和第二表達元素“動作片”時，多分類器141可檢測屬于最低分層等級的候選域(TV節(jié)目10和V0D20)，TV節(jié)目10和V0D20域包括通過將與第一表達元素相應的主動作和與第二表達元素相應的組件槽組合而產(chǎn)生的用戶動作腳本。如上所提，當檢測到候選域(TV節(jié)目10和V0D20)時，擴展域解釋器142確定是否存在對于每一個候選域(TV節(jié)目10和V0D20)具有上位概念的擴展域。當確定每個候選域TV節(jié)目10和V0D20包括具有與域“視頻內(nèi)容50”共同的上位概念的分層時，擴展域解釋器142可將域“視頻內(nèi)容50”確定為擴展域。
[0072]圖7是根據(jù)另一示例性實施例的域確定器中將屬于分層域模型中的每一個分層中的域分類的第二示例性示圖。
[0073]如圖7中所示，域確定器140可包括二元分類器143和域組合器144?？纱嬖谂c屬于分層域模型中的最低分層等級中的候選域一樣多的二元分類器。也就是說，當屬于分層域模型中的最低分層等級的候選域的數(shù)量是η時，域確定器140可包括二元分類器143-1~143-η。因此，與屬于分層域模型中的最低分層等級的候選域相應的二元分類器143-1~143-η可檢測出與在用戶的發(fā)音中提取的第一表達元素和第二表達元素有關(guān)的候選域和與候選域相應的較高分層等級的域。因此，域組合器144可組合通過每一個二元分類器143-1~143-η檢測的域,并確定候選域。
[0074]例如，當從用戶的發(fā)音“為我找出動作片”中提取出第一表達元素“為我找出”和第二表達元素“動作片”時，僅與包括用戶動作腳本的候選域TV節(jié)目10和V0D20相應的二元分類器143-2和143-3可檢測出每一個分層等級中的域，其中，所述用戶動作腳本通過將與第一表達元素“為我找出！ ”相應的主動作和與第二表達要素“動作片”相應的組件槽組合而被產(chǎn)生。
[0075]也就是說，可檢查出包括用戶動作腳本的關(guān)于最低分層等級的TV節(jié)目10的候選域、與具有包括上位概念的中間分層的TV頻道40、視頻頻道50相應的擴展域以及與最高分層的根60相應的擴展域，其中，用戶動作腳本通過將第一表達元素“為我找出！ ”相應的主動作和與第二表達元素相應的組合槽結(jié)合而被產(chǎn)生。此外，二元分類器143-3可檢測出包括用戶動作腳本的關(guān) 于最低分層的V0D20的候選域、與包括上位概念的中間分層的視頻頻道50相應的擴展域和與最高分層的根60相應的擴展域，其中，用戶動作腳本通過將與第一表達元素“為我找出！ ”相應的主動作和與第二表達元素相應的組合槽結(jié)合而被產(chǎn)生。如此，當通過二元分類器143-1、143-2…檢測到每一個分層的域時，域組合器144可將檢測到的域中的重復的域確定為擴展域。
[0076]因此，當檢測到與在用戶的發(fā)音中提取的第一表達元素和第二表達元素有關(guān)的擴展域時，域確定器140可基于先前確定的域(上文中稱作域)檢測出與預先檢測的擴展域有關(guān)的所有從屬概念的域，并將檢測的的所有候選域中的至少一個候選域確定為最終域。
[0077]此外，域確定器140可從與從提取器130中提取的用戶的發(fā)音相應的第一表達元素和第二表達元素中的至少一個和預先檢測的候選域來理解用戶的意圖。例如，當從用戶的發(fā)音“立刻為我找出空中動作片”中檢測出第二表達元素“立刻”和“動作片”時，域確定器140可從與第二表達元素“立刻”和“動作片”相應的組件槽中理解用戶的意圖。
[0078]如此，當用戶的意圖被理解時，域確定器140從理解的用戶意圖中確定是否發(fā)生語境初始化。當確定沒有發(fā)生語境初始化時，域確定器140可基于先前域?qū)㈩A先檢測的多個候選域中的至少一個候選域確定為最終域，先前域是就在接收到用戶的發(fā)音之前從用戶的先前發(fā)音中確定的域。
[0079]更具體地，當預先檢測的多個候選域中的至少一個候選域與預先存儲在存儲單元160中的先前域相應時，域確定器140可將先前域確定為最終域。在此，先前域是就在接收到用戶的發(fā)音之前從用戶的先前發(fā)音中確定的域。這樣的先前域可以是TV節(jié)目10，當前檢測到的候選域可以是TV節(jié)目10和V0D20。在這種情況下，域確定器140確定在與先前發(fā)音有關(guān)的類別內(nèi)正在輸入的當前用戶的發(fā)音。因此，域確定器140沒有將候選域確定為最終域，而是可維持作為先前域的TV節(jié)目10作為最終域。
[0080]然而，本公開不限于此，域確定器140可將預先檢測的多個候選域中的與先前域相應的候選域確定為最終域。
[0081]當確定預先檢測的多個候選域與先前域不同或發(fā)生語境初始化時，域確定器140在與預先檢測的擴展域有關(guān)的至少一個候選域之中將與代表用戶動作的第一表達元素有關(guān)的候選域確定為最終域。更具體地，域確定器140在檢測出的多個候選域之中將包括與代表用戶動作的第一表達元素相應的主動作信息的候選域確定為最終域。這里，當在檢測出的多個候選域中包括與代表用戶動作的第一表達元素相應的全部主動作信息時，域確定器140可將全部預先檢測的域確定為最終域。
[0082]例如，當預先檢測的擴展域是關(guān)于視頻內(nèi)容的擴展域時，針對關(guān)于視頻內(nèi)容的擴展域的候選域可以是關(guān)于TV節(jié)目和VOD的域?；谙惹鞍l(fā)音確定的先前域可以是TV節(jié)目和V0D。也就是說，在當前檢測的候選域與先前域全部相應時，域確定器140可將與作為先前域的TV節(jié)目和VOD相應的域確定為最終域。當候選域是與TV節(jié)目和VOD相應的域并且先前域是與VOD相應的域時，域確定器可將作為先前域的VOD域確定為最終域。
[0083]候選域可以是與TV節(jié)目和VOD相應的域，先前域可以是與TV設備相應的域。也就是說，當檢測到的候選域和先前域彼此不同時，域確定器140確定已經(jīng)發(fā)生了域轉(zhuǎn)變。因此，域確定器140可將包括與第一表達元素相應的主動作信息的候選域確定為最終域，其中，第一表達元素在從用戶的發(fā)音中提取的第一表達元素和第二表達元素之中代表用戶動作。
[0084]例如，當檢測到的候選域是與TV節(jié)目和VOD有關(guān)的域，并且與從用戶的發(fā)音中提取的第一表達元素相應的主動作信息是搜索內(nèi)容“search_program”時,域確定器140確定檢測到的候選域是否包括主動作信息。當在與TV節(jié)目和VOD相應的候選域中包括主動作信息“search_program”時,域確定器140可將全部預先檢測的候選域(即，與TV節(jié)目和VOD有關(guān)的域)確定為最終域。
[0085]當預先檢測的多個候選域包括與從用戶的發(fā)音中提取的第一表達元素相應的主動作信息時，域確定器140可在檢測到的多個候選域之中將由用戶選擇的候選域確定為最終域或任意選擇在多個候選域之中的一個候選域并將選擇的候選域確定為最終域。
[0086]例如，預先檢測的候選域可以是與TV節(jié)目和VOD有關(guān)的域，并且與從用戶的發(fā)音中提取的第一表達元素相應的主動作信息可以是特定內(nèi)容“play_pr0gram”。在這種情況下，當選擇與TV節(jié)目和VOD有關(guān)的域作為最終域時，關(guān)于用戶的發(fā)音可產(chǎn)生不同的響應信息。也就是說，在與TV節(jié)目相應的候選域內(nèi)響應于用戶的發(fā)音產(chǎn)生的響應信息可以與在與VOD相應的候選域內(nèi)響應于用戶的發(fā)音產(chǎn)生的響應信息彼此不同。因此，域確定器140可將在TV節(jié)目和VOD之中用戶選擇的兩個中的一個確定為最終域。
[0087]可存在多個先前域，并且在多個先前域之中的一個先前域可與在預先檢測的多個候選域之中的一個候選域彼此相應。在這種情況下，域確定器140確定與先前域相應的候選域是否包括與第一表達元素相應的主動作信息。當確定與先前域相應的候選域包括與第一表達兀素相應的主動作信息時，域確定器140可將與先前域相應的候選域確定為最終域。
[0088]當在預先檢測的多個候選域之中的一個候選域被確定為最終域時，控制器150可通過通信器110將關(guān)于從用戶的發(fā)音中提取的第一表達元素和第二表達元素的信息和關(guān)于預先確定的最終域的信息發(fā)送到外部設備(未示出)。因此，外部設備(未示出)在預先確定的最終域內(nèi)產(chǎn)生與用戶的發(fā)音有關(guān)的響應信息，并將產(chǎn)生的響應信息發(fā)送到語音識別設備100。因此，控制器150可將從外部設備接收的響應信息通過通信器110發(fā)送到顯示設備200。然而，本公開不限于此，當通過域確定器140確定了最終域時，控制器150可在確定的最終域內(nèi)基于預先提取的第一表達元素和第二表達元素來自身產(chǎn)生關(guān)于用戶的發(fā)音的響應信息，并將產(chǎn)生的響應信息通過通信器110發(fā)送到顯示設備200。
[0089]在此，響應信息包括與用戶的發(fā)音相應的響應消息信息。因此，控制器150可從外部設備接收正在輸出在顯示設備200上、包括以文本格式的響應消息信息的響應信息，或在內(nèi)部產(chǎn)生響應信息。當從外部設備接收了或內(nèi)部產(chǎn)生了這樣的響應信息時，控制器150通過通信器110將所述響應信息發(fā)送到顯示設備200。因此，顯示設備200可將包括在從語音識別設備100接收的響應信息中的響應消息信息以文本格式輸出在屏幕上，或通過揚聲器作為音頻輸出。
[0090]以上已經(jīng)提供了關(guān)于根據(jù)示例性實施例的對話型系統(tǒng)中提供對于用戶的發(fā)音的響應信息的語音識別設備100的每一個配置的詳細解釋。以下將提供關(guān)于根據(jù)示例性實施例的對話型語音識別設備100中提供與用戶的發(fā)音相應的響應信息的方法的詳細解釋。
[0091]圖8是根據(jù)示例性實施例的用于在對話型系統(tǒng)的語音識別設備中提供與用戶的發(fā)音相應的響應信息的方法的流程圖。
[0092]如圖8中所示，語音識別設備100從顯示設備200接收收集的用戶的發(fā)音信號(在下文中被稱作“發(fā)音”)。當從顯示設備200接收到用戶的發(fā)音時，接收的用戶的發(fā)音被識別并被轉(zhuǎn)換成文本(S810)。根據(jù)示例性實施例，語音識別設備100可使用STT (語音到電文)算法，并將接收到的用戶的發(fā)音轉(zhuǎn)換為文本。當用戶的發(fā)音轉(zhuǎn)換成文本時，語音識別設備100從轉(zhuǎn)換成文本的用戶的發(fā)音中提取代表用戶動作的第一表達元素和代表對象的第二表達元素(S820)。例如，在用戶的發(fā)音“為我找出動作片！ ”的情況下，語音識別設備100可提取代表用戶動作“為我找到！ ”的第一表達元素和代表對象“動作片”的第二表達元素。
[0093]接下來，語音識別設備100基于預先確定并存儲的分層域模型來檢測與從用戶的發(fā)音提取的第一表達元素和第二表達元素有關(guān)的擴展域(S830)。在此，分層域模式是分層地包括候選域和預先確定為每一個候選域的上位概念的虛擬擴展域的域模型，在候選域中，在每一個發(fā)音中提取的第一表達元素相應的主動作和與第二表達元素相應的組件槽彼此匹配。
[0094]分層域模型可包括樹狀分層結(jié)構(gòu)，在其中包括最高分層等級、中間分層等級和最低分層等級。最高分層等級是關(guān)于預先確定為與候選域有關(guān)的上位概念的虛擬擴展域的主題節(jié)點，其中，候選域是產(chǎn)生關(guān)于用戶的發(fā)音的響應信息的區(qū)域，中間分層等級是預先確定為上位概念的從屬概念的主題節(jié)點。此外，最低分層等級是關(guān)于預先確定為中間概念的從屬概念的候選域的主題節(jié)點。也就是說，屬于分層域模型的最低分層等級的候選域被預先確定為與基本關(guān)鍵詞相應的下位概念的候選域，屬于中間分層等級的虛擬擴展域可被預先確定為在多個預先確定為下位概念的候選域之間包括兩個或更多個候選域的中間概念的域。此外，屬于最高分層等級的虛擬擴展域可被確定為包括全部預先確定為下位概念的候選域的上位概念的域。
[0095]如圖4中所示，每一個分層等級預先確定的每一個域可被預先確定為用于確定每一個域的主動作和與主動作彼此匹配的組件槽。也就是說，每一個分層預先確定的每一個域可包括通過將與代表用戶動作的第一表達元素相應的主動作和與代表對象的第二表達元素相應的組件槽組合而產(chǎn)生的用戶動作腳本。如圖4中所示，關(guān)于屬于最低分層的TV節(jié)目10的候選域可包括用戶動作腳本12 (諸如，“play_program (channel_name, channel_no, genre, time, title)”、〃search_program(channel_name, channel_no, genre, time, title)")。因此,如圖4中所示,每一個分層預先確定的每一個域(即，包括在分層域模型中的每一個分層的每一個域)可包括如圖5中所示的通過將不同的主動作和每一個主動作的組件槽組合而產(chǎn)生的用戶動作腳本。
[0096]因此，語音識別設備100可基于預先確定的分層域模型來檢測包括用戶動作腳本的至少一個候選域并從檢測出的候選域中檢測屬于相應的候選域的上位概念的擴展域，其中，用戶動作腳本通過將從用戶的語音中提取的第一表達元素和第二表達元素分別相應的主動作和組件槽組合而被產(chǎn)生。
[0097]根據(jù)示例性實施例，語音識別設備100使用多分類器以在屬于分層域模型的每一個分層中檢測與從用戶的發(fā)音提取的第一表達元素和第二表達元素有關(guān)的至少一個候選域。當如此檢測到至少一個候選域時，語音識別設備100將屬于檢測出的候選域的上位概念的域確定為擴展域。例如，語音識別設備100可檢測出包括作為用戶動作腳本的“search_program(genre) ”的候選域TV節(jié)目10和V0D20,其中，用戶動作腳本通過將與來自用戶的發(fā)音的第一表達元素“為我找出！ ”相應的主動作和與第二表達元素“動作片”相應的組件槽組合而被產(chǎn)生。如此，當檢測出每一個候選域(TV節(jié)目10和V0D20)時，語音識別設備100確定是否存在與每一個檢測到的候選域具有共同的上位概念的擴展域。當確定候選域TV節(jié)目10和V0D20的每一個包括具有域“視頻內(nèi)容(50)”的共同的上位概念的分層時，語音識別設備100可將域“視頻內(nèi)容(50)”確定為擴展域。
[0098]根據(jù)另一示例性實施例，語音識別設備100使用至少一個二元分類器以在與從用戶的發(fā)音中提取的第一表達元素和第二表達元素有關(guān)的候選域之中檢測至少一個域和擴展域。在此，二元分類器的數(shù)量可以與在屬于分層域模型的最低分層域中候選域的數(shù)量一樣多。也就是說，當在屬于分層域模型的最低分層等級中存在數(shù)量η的候選域時，語音識別設備100使用數(shù)量η的二元分類器以檢測與從用戶的發(fā)音中提取的第一表達元素和第二表達元素有關(guān)的候選域和與相應的候選域有關(guān)的較高分層等級的擴展域。接下來，語音識別設備100可通過將經(jīng)過每一個二元分類器檢測出的域組合而確定候選域。例如，當從用戶的發(fā)音中提取到第一表達元素“為我找出！ ”和第二表達元素“動作片”時，僅在與TV節(jié)目、VOD和TV裝置相應的每一個二元分類器之中與包括用戶動作腳本的候選域TV節(jié)目和VOD相應的二元分類器可檢測出每一個分層的域，其中，用戶動作腳本通過將與第一表達元素“為我找出！ ”相應的主動作和與第二表達元素“動作片”相應的動作槽組合而被產(chǎn)生。
[0099]也就是說，語音識別設備100可檢測與包括通過將與第一表達元素“為我找出！ ”相應的主動作和與第二表達元素“動作片”相應的組件槽組合而產(chǎn)生的用戶動作腳本的最低分層等級的TV節(jié)目10相應的候選域、與包含相應候選域的上位概念的中間分層等級中的TV頻道和視頻內(nèi)容相應的擴展域以及與最高分層等級中的根相應的擴展域。此外，語音識別設備100可檢測在包括通過將與第一表達元素“為我找出！ ”相應的主動作和與第二表達元素“動作片”相應的組件槽組合而產(chǎn)生的用戶動作腳本的最低分層等級中關(guān)于VOD的候選域、在包括相應候選域的上位概念的中間分層等級中與視頻頻道相應的擴展域以及與最高分層等級的根相應的擴展域。如此，當通過與每一個候選域TV節(jié)目和VOD相應的二元分類器而檢測出每一個分層的域時，語音識別設備100可在檢測出的域之中將重復的域確定為擴展域。
[0100]當檢測出與從用戶的發(fā)音中提取的第一表達元素和第二表達元素有關(guān)的擴展域時，語音識別設備100可基于先前確定的域(在此以下稱作先前域)檢測出與預檢測的候選域有關(guān)的全部從屬概念的候選域，并檢測多個檢測出的候選域中的至少一個作為最終域(S840、S850)。接下來，語音識別設備100將關(guān)于確定的最終域的信息和關(guān)于從用戶的發(fā)音提取的第一表達元素和第二表達元素的信息發(fā)送到外部設備(未示出)(S860)。因此，外部設備(未示出)可在預先確定的最終域內(nèi)產(chǎn)生與用戶的發(fā)音有關(guān)的響應信息并將產(chǎn)生的響應信息發(fā)送到語音識別設備100。然而，本公開不限于此，并且語音識別設備100可在預先確定的最終域內(nèi)基于第一表達元素和第二表達元素來自身產(chǎn)生關(guān)于用戶的發(fā)音的響應信息。在此，響應信息可包括與用戶的發(fā)音相應的響應消息信息。因此，當從外部設備接收了或在內(nèi)部產(chǎn)生了這樣的響應信息時，語音識別設備100將相應的響應信息發(fā)送到顯示設備200。因此，顯示設備200可將包括在從語音識別設備100接收的響應信息中的響應消息信息以文本格式輸出在屏幕上，或通過揚聲器作為音頻輸出。
[0101]在此以下是用于在前述的語音識別設備100中在多個候選域之中將至少一個候選域確定為最終域的方法的詳細解釋。
[0102]圖9是根據(jù)示例性實施例的用于將在語音識別設備中提取的候選域中的一個確定為最終域的方法的流程圖。
[0103]如圖9中所示，在操作語音識別設備100從在操作S820中提取的第一表達元素和第二表達元素和預先檢測的候選域來理解用戶的意圖。如之前所提，當從用戶的發(fā)音“立刻為我找出空中動作片”中檢測出第二表達元素“立刻”和“動作片”時，語音識別設備100可從檢測出的“立刻”和“動作片”相應的組件槽理解用戶的意圖。
[0104]當理解了用戶的意圖時，語音識別設備100基于理解的用戶的意圖來確定是否發(fā)生了語境初始化(S910)。當確定還沒有發(fā)生語境初始化時，語音識別設備100基于先前域?qū)⒃陬A先檢測的多個候選域之中的一個候選域確定為最終域。更具體地，當在預先檢測的多個候選域之中的一個候選域與預先存儲的先前域相應時，語音識別設備100維持先前域作為最終域(S920、S930)。在此，先前域是就在接收到用戶的發(fā)音之前從用戶的先前發(fā)音確定的域。例如，當這樣的先前域是TV節(jié)目，并且當前檢測到的候選域是TV節(jié)目和VOD時，語音識別設備100確定在與先前發(fā)音有關(guān)的類別內(nèi)用戶的當前發(fā)音正在被輸入。因此，語音識別設備100沒有將預先檢測的多個候選域確定為最終域，但可維持作為先前域的TV節(jié)目作為最終域。
[0105]當確定預先檢測的多個候選域與先前域不同或已經(jīng)發(fā)生了語境初始化時，語音識別設備100獲得與代表用戶意圖的第一表達元素相應的主動作信息(S940)。接下來，語音識別設備100確定在預先檢測的多個候選域中是否包括與第一表達元素相應的主動作信息(S950)。當確定在多個獲選域中的至少一個候選域中包括與第一表達元素相應的主動作信息時，語音識別設備100將包括與第一表達兀素相應的主動作信息的候選域確定為最終域(S960)。
[0106]可存在多個先前域，并且在多個先前域之中的一個先前域可與在預先檢測的多個候選域之中的一個候選域彼此相應。在這種情況下，語音識別設備100確定與先前域相應的候選域是否包括與第一表達元素相應的主動作信息。當確定與先前域相應的候選域包括與第一表達元素相應的主動作信息時，語音識別設備100可將與先前域相應的候選域確定為最終域。
[0107]例如，當檢測到的候選域是關(guān)于TV節(jié)目和VOD的域，并且與從用戶的發(fā)音中提取的第一表達元素相應的主動作信息是搜索內(nèi)容“searctupiOgram”時，語音識別設備100確定檢測到的候選域是否包括主動作信息“ search_program,,0當關(guān)于TV節(jié)目和VOD的候選域包括主動作信息“search_program”時,語音識別設備100可將關(guān)于TV節(jié)目和VOD的候選域確定為最終域。
[0108]當確定全部預先檢測的多個候選域不包括主動作信息時，語音識別設備100可在檢測到的多個候選域之中將由用戶選擇的候選域確定為最終域(S970)，或任意選擇在多個候選域之中的一個候選域并將選擇的候選域確定為最終域。
[0109]例如，預先檢測的候選域可以是與TV節(jié)目和VOD有關(guān)的域，并且與從用戶的發(fā)音中提取的第一表達元素相應的主動作信息可以是“play_pr0gram”。在這種情況下，當選擇關(guān)于TV節(jié)目和VOD的候選域作為最終域時，關(guān)于用戶的發(fā)音可產(chǎn)生不同的響應信息。因此，語音識別設備100可在關(guān)于TV節(jié)目和VOD的候選域之中的由用戶選擇的一個候選域確定為最終域。
[0110]如此，當將在預先檢測的多個候選域之中的至少一個候選域確定為最終域時，語音識別設備100可在預先確定的最終域內(nèi)產(chǎn)生關(guān)于用戶的發(fā)音的響應信息并將產(chǎn)生的響應信息輸出。因此，顯示設備200可通過顯示從語音識別設備100接收的響應信息或通過將所述響應信息經(jīng)過揚聲器輸出來確認關(guān)于自身的發(fā)音的響應信息。
[0111]根據(jù)各種示例性實施例的語音識別設備中提供關(guān)于用戶的發(fā)音的響應信息的方法可作為程序代碼被實施并可被設置在存儲在非暫時性計算機可讀介質(zhì)中的每一個服務器或裝置中。
[0112]非暫時性計算機可讀介質(zhì)是數(shù)據(jù)可被半永久性的存儲在其中的計算機可讀介質(zhì)，而非在一段短時期內(nèi)數(shù)據(jù)被存儲在其中的介質(zhì)(諸如，寄存器、緩存器、內(nèi)存等)。更具體地，前述各種應用或程序可被存儲在非暫時性計算機可讀介質(zhì)(諸如，CD、DVD、硬盤、藍光碟、USB、內(nèi)存卡、ROM等)中。
[0113]雖然已經(jīng)示出并描述了一些示例性實施例，但本領域技術(shù)人員應該理解:在不脫離本發(fā)明的概念的原理和精神的情況下可在這些實施例中做出改變，其中，本發(fā)明的概念的范圍由權(quán)利要求和它們的等同物限定。
【權(quán)利要求】
1.一種對話型語音識別設備，包括: 提取器，被配置為從用戶的發(fā)音信號中提取代表用戶動作的第一表達元素和代表對象的第二表達元素；域確定器，被配置為基于分層域模型檢測出與提取的第一表達元素和第二表達元素有關(guān)的擴展域，并將與檢測出的多個擴展域有關(guān)的至少一個候選域確定為最終域；通信器，被配置為與外部設備執(zhí)行通信；控制器，被配置為控制通信器發(fā)送與第一表達元素和第二表達元素有關(guān)的信息和關(guān)于確定的最終域的信息。
2.根據(jù)權(quán)利要求1所述的對話型語音識別設備，其中，分層域模型包括:下位概念的候選域和預先確定為候選域的上位概念的虛擬擴展域，在下位概念的候選域中，與第一表達元素相應的主動作和與第二表達元素相應的組件槽彼此匹配。
3.根據(jù)權(quán)利要求2所述的對話型語音識別設備，其中，域確定器被配置為當檢測出與從提取器中提取的第一表達元素相應的主動作和與從提取器中提取的第二表達元素相應的組件槽彼此匹配的擴展域時，使用多分類器以檢測與檢測出的擴展域有關(guān)的從屬候選域，并且域確定器被配置為當沒有檢測出所述擴展域時，檢測候選域，在所述候選鄰域中，與第一表達元素相應的主動作和與第二表達元素相應的組件槽彼此匹配域。
4.根據(jù)權(quán)利要求2所述的對話型語音識別設備，其中，域確定器被配置為使用至少一個二元分類器檢測在多個候選域之中的至少一個域和擴展域，其中，在候選域中，與第一表達元素相應的主動作和與第二表達元素相應的組件槽彼此匹配。
5.根據(jù)權(quán)利要求3所述的對話型語音識別設備，其中，域確定器被配置為從提取的第一表達元素和第二表達元素中的至少一個和檢測出的候選域來確定用戶的意圖，以確定是否發(fā)生語境初始化，當確定還沒有發(fā)生語音初始化時，基于先前域?qū)⒃跈z測出的多個候選域之中的至少一個候選域確定為最終域，所述先前域是在接收到用戶的發(fā)音信號之前從用戶的先前發(fā)音確定的域。
6.根據(jù)權(quán)利要求5所述的對話型語音識別設備，其中，域確定器被配置為響應于在檢測出的多個候選域之中的一個候選域與先前域彼此相應，將先前域確定為最終域。
7.根據(jù)權(quán)利要求6所述的對話型語音識別設備，其中，域確定器被配置為響應于確定檢測出的候選域與先前域彼此不同或已發(fā)生了語境初始化，將在與檢測出的擴展域有關(guān)的至少一個候選域之中與代表用戶動作的第一表達元素有關(guān)的候選域確定為最終域。
8.根據(jù)權(quán)利要求7所述的對話型語音識別設備，其中，域確定器被配置為響應于檢測出的候選域包括與代表用戶動作的第一表達元素相應的主動作信息，將檢測出的全部候選域確定為最終域。
9.根據(jù)權(quán)利要求8所述的對話型語音識別設備，其中，域確定器被配置為響應于檢測出的候選域包括與代表用戶動作的第一表達元素相應的主動作信息，將由用戶選擇的候選域確定為最終域或任意選擇在檢測出的多個候選域之中的一個候選域作為最終域。
10.根據(jù)權(quán)利要求9所述的對話型語音識別設備，其中，域確定器被配置為響應于存在多個先前域，所述多個先前域中的一個與所述多個候選域中的一個彼此相應并且該候選域包括與代表用戶動作的第一表達元素相應的主動作信息，來將在檢測出的多個候選域之中與先前域相應的候選域確定為最終域。
11.一種在對話型語音識別設備中提供與用戶的發(fā)音相應的響應信息的方法，所述方法包括: 從用戶的發(fā)音信號中提取代表用戶動作的第一表達元素和代表對象的第二表達元素；基于預先確定的分層域模型檢測出與提取的第一表達元素和第二表達元素有關(guān)的擴展域；將與檢測出的多個擴展域有關(guān)的至少一個候選域確定為最終域；將關(guān)于第一表達元素和第二表達元素的信息和關(guān)于確定的最終域的信息發(fā)送到外部設備。
12.根據(jù)權(quán)利要求11所述的方法，其中，分層域模型包括下位概念的候選域和預先確定為候選域的上位概念的虛擬擴展域，在下位概念的候選域中，與第一表達元素相應的主動作和與第二表達元素相應的組件槽彼此匹配。
13.根據(jù)權(quán)利要求12所述的方法，其中，檢測擴展域的步驟包括:當檢測出與從提取器中提取的第一表達元素相應的主動作和與從提取器中提取的第二表達元素相應的組件槽彼此匹配的擴展域時，使用多分類器以檢測與檢測出的擴展域有關(guān)的從屬候選域，并且，當沒有檢測出所述擴展域時，檢測擴展域的步驟包括:使用多分類器以檢測候選域，在所述候選鄰域中，與第一表達元素相應的主動作和與第二表達元素相應的組件槽彼此匹配域。
14.根據(jù)權(quán)利要求12所述的方法，其中，檢測擴展域的步驟包括:使用至少一個二元分類器檢測在多個候選域之中的至少一個域和擴展域，其中，在候選域中，與第一表達元素相應的主動作和與第二表達元素相應的組件槽彼此匹配。
15.根據(jù)權(quán)利要求13所述的方法，其中，確定最終域的步驟包括:從提取的第一表達元素和第二表達元素中的至少一個和檢測出的候選域來確定用戶的意圖，以確定是否發(fā)生語境初始化，響應于確定還沒有發(fā)生語境初始化，基于先前域?qū)⒃跈z測出的多個候選域之中的至少一個候選域確定為最終域，所述先前域是在接收到用戶的發(fā)音信號之前從用戶的先前發(fā)音確定的域。
【文檔編號】G10L15/00GK103974109SQ201410041514
【公開日】2014年8月6日申請日期:2014年1月28日優(yōu)先權(quán)日:2013年1月31日
【發(fā)明者】樸殷相, 金倞德, 金命哉, 劉昱, 柳成瀚, 李根培申請人:三星電子株式會社

完整全部詳細技術(shù)資料下載