基于人工智能的語(yǔ)音交互方法和裝置與流程

文檔序號(hào)：12820184閱讀：377來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域，尤其涉及一種基于人工智能的語(yǔ)音交互方法和裝置。

背景技術(shù)：

人工智能(artificialintelligence)，英文縮寫(xiě)為ai。它是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支，它企圖了解智能的實(shí)質(zhì)，并生產(chǎn)出一種新的能以人類(lèi)智能相似的方式做出反應(yīng)的智能機(jī)器，該領(lǐng)域的研究包括機(jī)器人、語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專家系統(tǒng)等。其中，人工智能最重要的方面就是語(yǔ)音識(shí)別技術(shù)。

現(xiàn)有技術(shù)中，在智能電視產(chǎn)品中已經(jīng)應(yīng)用了語(yǔ)音識(shí)別技術(shù)進(jìn)行語(yǔ)音交互，極大方便了智能電視的使用。但是，由于現(xiàn)有技術(shù)中當(dāng)需要對(duì)用戶的語(yǔ)音進(jìn)行反饋時(shí)，往往單一地采用對(duì)話的方式，或者，采用獨(dú)立的頁(yè)面進(jìn)行反饋，對(duì)用戶觀看電視，或者使用智能電視的過(guò)程造成了干擾，語(yǔ)音交互的呈現(xiàn)效果不佳。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。

為此，本發(fā)明的第一個(gè)目的在于提出一種基于人工智能的語(yǔ)音交互方法，以提高語(yǔ)音交互的呈現(xiàn)效果，避免語(yǔ)音交互過(guò)程對(duì)用戶使用智能電視的過(guò)程造成干擾。

本發(fā)明的第二個(gè)目的在于提出一種基于人工智能的語(yǔ)音交互裝置。

本發(fā)明的第三個(gè)目的在于提出一種計(jì)算機(jī)設(shè)備。

本發(fā)明的第四個(gè)目的在于提出一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。

本發(fā)明的第五個(gè)目的在于提出一種計(jì)算機(jī)程序產(chǎn)品。

為達(dá)上述目的，本發(fā)明第一方面實(shí)施例提出了一種基于人工智能的語(yǔ)音交互方法，包括：

當(dāng)探測(cè)到進(jìn)行語(yǔ)音交互時(shí)，采集用戶輸入的語(yǔ)音，識(shí)別得到對(duì)應(yīng)的文字；

對(duì)語(yǔ)音對(duì)應(yīng)的文字進(jìn)行識(shí)別，得到用戶的交互類(lèi)型和交互需求；

根據(jù)交互類(lèi)型，選擇電視業(yè)務(wù)的展示界面，或者選擇電視業(yè)務(wù)展示界面的上方顯示的懸浮窗口，反饋用戶的交互需求。

本發(fā)明實(shí)施例的基于人工智能的語(yǔ)音交互方法，通過(guò)當(dāng)探測(cè)到開(kāi)始進(jìn)行語(yǔ)音交互時(shí)，采集用戶輸入的語(yǔ)音，識(shí)別得到對(duì)應(yīng)的文字。進(jìn)而對(duì)該文字進(jìn)行識(shí)別，得到用戶的交互需求和交互類(lèi)型。根據(jù)交互類(lèi)型，選擇電視業(yè)務(wù)的展示界面，或者選擇電視業(yè)務(wù)的展示界面上方顯示的懸浮窗口，反饋用戶的交互需求。由于根據(jù)交互類(lèi)型，選擇與交互需求相適應(yīng)的反饋呈現(xiàn)方式，以提高語(yǔ)音交互的呈現(xiàn)效果，避免語(yǔ)音交互過(guò)程對(duì)用戶使用智能電視的過(guò)程造成干擾，解決現(xiàn)有技術(shù)中語(yǔ)音交互呈現(xiàn)效果較差的技術(shù)問(wèn)題。

為達(dá)上述目的，本發(fā)明第二方面實(shí)施例提出了一種基于人工智能的語(yǔ)音交互的裝置，包括：

采集模塊，用于當(dāng)探測(cè)到開(kāi)始進(jìn)行語(yǔ)音交互時(shí)，采集用戶輸入的語(yǔ)音，識(shí)別得到對(duì)應(yīng)的文字；

識(shí)別模塊，用于對(duì)所述語(yǔ)音對(duì)應(yīng)的文字進(jìn)行識(shí)別，得到用戶的交互需求和交互類(lèi)型；

反饋模塊，用于根據(jù)所述交互類(lèi)型，選擇所述電視業(yè)務(wù)的展示界面，或者選擇所述電視業(yè)務(wù)的展示界面上方顯示的懸浮窗口，反饋所述用戶的交互需求。

本發(fā)明實(shí)施例的基于人工智能的語(yǔ)音交互裝置中，采集模塊用于當(dāng)探測(cè)到開(kāi)始進(jìn)行語(yǔ)音交互時(shí)，采集用戶輸入的語(yǔ)音，識(shí)別得到對(duì)應(yīng)的文字。識(shí)別模塊用于對(duì)語(yǔ)音對(duì)應(yīng)的文字進(jìn)行識(shí)別，得到用戶的交互需求和交互類(lèi)型。反饋模塊用于根據(jù)交互類(lèi)型，選擇電視業(yè)務(wù)的展示界面，或者選擇電視業(yè)務(wù)的展示界面上方顯示的懸浮窗口，反饋用戶的交互需求。由于根據(jù)交互類(lèi)型，選擇與交互需求相適應(yīng)的反饋呈現(xiàn)方式，以提高語(yǔ)音交互的呈現(xiàn)效果，避免語(yǔ)音交互過(guò)程對(duì)用戶使用智能電視的過(guò)程造成干擾，解決現(xiàn)有技術(shù)中語(yǔ)音交互呈現(xiàn)效果較差的技術(shù)問(wèn)題。

為達(dá)上述目的，本發(fā)明第三方面實(shí)施例還提出了一種計(jì)算機(jī)設(shè)備，包括：存儲(chǔ)器，處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序時(shí)，用于執(zhí)行第一方面所述的方法。

為達(dá)上述目的，本發(fā)明第四方面實(shí)施例還提出了一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該程序被處理器執(zhí)行時(shí)，執(zhí)行第一方面所述的方法。

為達(dá)上述目的，本發(fā)明第五方面實(shí)施例還提出了一種計(jì)算機(jī)程序產(chǎn)品，當(dāng)所述程序產(chǎn)品中的指令被處理器執(zhí)行時(shí)，執(zhí)行第一方面所述的方法。

本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過(guò)本發(fā)明的實(shí)踐了解到。

附圖說(shuō)明

本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解，其中：

圖1為本發(fā)明實(shí)施例所提供的一種基于人工智能的語(yǔ)音交互方法的流程示意圖；

圖2為本發(fā)明實(shí)施例提供的一種語(yǔ)音采集流程示意圖；

圖3為本發(fā)明實(shí)施例提供的一種文字語(yǔ)義識(shí)別的流程示意圖；

圖4為本發(fā)明實(shí)施例所提供的另一種基于人工智能的語(yǔ)音交互方法的流程示意圖；

圖5a是本發(fā)明實(shí)施例的一種基于人工智能的語(yǔ)音交互方法的示例性操作示意圖之一；

圖5b是本發(fā)明實(shí)施例的一種基于人工智能的語(yǔ)音交互方法的示例性操作示意圖之二；

圖5c是本發(fā)明實(shí)施例的一種基于人工智能的語(yǔ)音交互方法的示例性操作示意圖之三；

圖5d是本發(fā)明實(shí)施例的一種基于人工智能的語(yǔ)音交互方法的示例性操作示意圖之四；

圖5e是本發(fā)明實(shí)施例的一種基于人工智能的語(yǔ)音交互方法的示例性操作示意圖之五；

圖5f是本發(fā)明實(shí)施例的一種基于人工智能的語(yǔ)音交互方法的示例性操作示意圖之六；

圖5g是本發(fā)明實(shí)施例的一種基于人工智能的語(yǔ)音交互方法的示例性操作示意圖之七；

圖6為本發(fā)明實(shí)施例所提供的一種基于人工智能的語(yǔ)音交互裝置的結(jié)構(gòu)示意圖；以及

圖7為本發(fā)明實(shí)施例所提供的另一種基于人工智能的語(yǔ)音交互裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類(lèi)似的標(biāo)號(hào)表示相同或類(lèi)似的元件或具有相同或類(lèi)似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的，旨在用于解釋本發(fā)明，而不能理解為對(duì)本發(fā)明的限制。

下面參考附圖描述本發(fā)明實(shí)施例的基于人工智能的語(yǔ)音交互方法和裝置。

圖1為本發(fā)明實(shí)施例所提供的一種基于人工智能的語(yǔ)音交互方法的流程示意圖。

如圖1所示，該基于人工智能的語(yǔ)音交互方法包括以下步驟：

步驟101，當(dāng)探測(cè)到開(kāi)始進(jìn)行語(yǔ)音交互時(shí)，采集用戶輸入的語(yǔ)音，識(shí)別得到對(duì)應(yīng)的文字。

具體地，在進(jìn)行語(yǔ)音交互之前，需要先打開(kāi)進(jìn)行語(yǔ)音交互的懸浮窗口。在用戶進(jìn)行語(yǔ)音輸入的過(guò)程中，懸浮窗口采集用戶輸入的語(yǔ)音，將所采集的語(yǔ)音發(fā)送至服務(wù)器，將語(yǔ)音識(shí)別成對(duì)應(yīng)的文字，并在懸浮窗口中實(shí)時(shí)顯示。

步驟102，對(duì)語(yǔ)音對(duì)應(yīng)的文字進(jìn)行識(shí)別，得到用戶的交互需求和交互類(lèi)型。

具體地，對(duì)用戶語(yǔ)音進(jìn)行文字識(shí)別后，將語(yǔ)音對(duì)應(yīng)的文字發(fā)送到服務(wù)器進(jìn)行語(yǔ)義的識(shí)別，并進(jìn)行數(shù)據(jù)分類(lèi)，得到用戶的交互需求和交互類(lèi)型。

這里的交互類(lèi)型可以包括電視業(yè)務(wù)，其余非電視業(yè)務(wù)可以稱為資訊業(yè)務(wù)。

交互需求包括了信息查詢、音量控制、顯示控制等等。例如：基于電視業(yè)務(wù)的交互需求包括搜索電影，搜索電視節(jié)目，音量大小調(diào)節(jié)、屏幕亮度調(diào)節(jié)等等，基于資訊業(yè)務(wù)的交互需求包括查詢天氣狀況，查看專輯等等。

步驟103，根據(jù)交互類(lèi)型，選擇電視業(yè)務(wù)的展示界面，或者電視業(yè)務(wù)的展示界面的上方顯示的懸浮窗口，反饋用戶的交互需求。

具體地，交互類(lèi)型分為電視業(yè)務(wù)和資訊類(lèi)業(yè)務(wù)，當(dāng)交互類(lèi)型為電視業(yè)務(wù)時(shí)，將用戶的交互需求在電視業(yè)務(wù)的展示界面中反饋，當(dāng)交互類(lèi)型為資訊類(lèi)業(yè)務(wù)時(shí)，將用戶的交互需求在電視業(yè)務(wù)的展示界面上方顯示的懸浮窗口中反饋。

為了進(jìn)一步解釋說(shuō)明上述步驟101，作為一種可能的實(shí)現(xiàn)方式，圖2為本發(fā)明實(shí)施例提供的一種語(yǔ)音采集流程示意圖。

如圖2所示，步驟101包括以下子步驟：

步驟1011，麥克風(fēng)初始化。

具體地，當(dāng)有用戶需要進(jìn)行語(yǔ)音交互時(shí)，啟動(dòng)懸浮窗口，電視系統(tǒng)內(nèi)部的麥克風(fēng)啟動(dòng)并進(jìn)行初始化設(shè)置。

步驟1012，采集用戶語(yǔ)音，并將采集到的用戶語(yǔ)音發(fā)送至服務(wù)器。

具體地，麥克風(fēng)檢測(cè)到有用戶進(jìn)行語(yǔ)音輸入時(shí)，采集用戶的語(yǔ)音，作為一種可能的實(shí)現(xiàn)方式，麥克風(fēng)以16k的采樣頻率、16位的采樣位數(shù)采集用戶語(yǔ)音，用戶語(yǔ)音利用脈沖編碼調(diào)制(pulsecodemodulation，pcm)方式進(jìn)行編碼獲得pcm音頻流，系統(tǒng)將用戶語(yǔ)音的pcm音頻流發(fā)送到服務(wù)器進(jìn)行文字識(shí)別。

步驟1013，判斷語(yǔ)音采集是否完成，完成則執(zhí)行步驟1014，否則，則執(zhí)行步驟1012。

具體地，麥克風(fēng)采集語(yǔ)音的過(guò)程中，系統(tǒng)會(huì)判斷語(yǔ)音采集是否完成，判斷語(yǔ)音采集是否完成有很多種可能的實(shí)現(xiàn)方式，作為一種可能的實(shí)現(xiàn)方式，可以是系統(tǒng)獲取已經(jīng)結(jié)束的狀態(tài)，包括但不限于通過(guò)觸發(fā)物理按鍵或者輸入預(yù)設(shè)的結(jié)束詞的方式反饋給系統(tǒng)用戶語(yǔ)音輸入結(jié)束。作為另一種可能的實(shí)現(xiàn)方式，可以是若在預(yù)設(shè)時(shí)間內(nèi)系統(tǒng)沒(méi)有收到pcm語(yǔ)音流或者是收到的pcm語(yǔ)音流幅度不滿足預(yù)設(shè)閾值，則判斷用戶當(dāng)前的語(yǔ)音輸入已經(jīng)完成，即語(yǔ)音采集完成。

步驟1014，獲取用戶的語(yǔ)音對(duì)應(yīng)的文字。

具體地，服務(wù)器接收pcm音頻流，根據(jù)音頻流的語(yǔ)音特征在語(yǔ)言模型中進(jìn)行查找和比對(duì)，識(shí)別出用戶輸入的語(yǔ)音相對(duì)應(yīng)的文字。

步驟1015，實(shí)時(shí)文字顯示并更新。

具體地，服務(wù)器將識(shí)別出的文字反饋給電視系統(tǒng)，系統(tǒng)在顯示界面的懸浮窗口中實(shí)時(shí)顯示識(shí)別出的文字，并根據(jù)用戶語(yǔ)音采集的過(guò)程實(shí)時(shí)更新顯示的文字，用戶語(yǔ)音采集完成后，懸浮窗口中顯示識(shí)別出的完整文字。

進(jìn)一步，為更好的說(shuō)明上述步驟102，作為一種可能的實(shí)現(xiàn)方式，圖3為本發(fā)明實(shí)施例提供的一種文字語(yǔ)義識(shí)別的流程示意圖。

如圖3所示，步驟102包含以下子步驟：

步驟1021，將語(yǔ)音識(shí)別得到的文字傳送至服務(wù)器。

步驟1022，服務(wù)器對(duì)文字進(jìn)行語(yǔ)義識(shí)別。

具體地，服務(wù)器收到用戶語(yǔ)音對(duì)應(yīng)的文字后，服務(wù)器利用自然語(yǔ)言的處理機(jī)制對(duì)該文字進(jìn)行處理，然后對(duì)文字進(jìn)行語(yǔ)義的識(shí)別，并將識(shí)別的內(nèi)容進(jìn)行分類(lèi)，獲得用戶的交互需求和交互類(lèi)型，得到結(jié)構(gòu)化數(shù)據(jù)，并將結(jié)構(gòu)化數(shù)據(jù)返回給電視系統(tǒng)。

步驟1023，對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理。

具體地，電視系統(tǒng)將服務(wù)器返回的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理，包括根據(jù)交互類(lèi)型判斷是電視業(yè)務(wù)還是資訊業(yè)務(wù)，當(dāng)交互類(lèi)型是電視業(yè)務(wù)時(shí)，若交互需求是針對(duì)電視的指令操作，則執(zhí)行該指令并返回指令操作的結(jié)果，當(dāng)交互需求為搜索內(nèi)容的關(guān)鍵字時(shí)，在電視業(yè)務(wù)中，搜索目標(biāo)內(nèi)容，其中，目標(biāo)內(nèi)容與交互需求所指示的關(guān)鍵詞匹配，當(dāng)搜索到目標(biāo)內(nèi)容時(shí)，返回結(jié)果給電視系統(tǒng)。當(dāng)交互類(lèi)型為資訊業(yè)務(wù)時(shí)，針對(duì)交互需求訪問(wèn)相關(guān)數(shù)據(jù)，返回結(jié)果給電視系統(tǒng)。交互類(lèi)型為電視業(yè)務(wù)時(shí)，交互需求包括但不限于搜索影片，搜索節(jié)目，調(diào)整音量，交互類(lèi)型為資訊類(lèi)業(yè)務(wù)時(shí)，交互需求包括但不限于查看天氣，查看最新專輯。

為了清楚說(shuō)明上一實(shí)施例，本實(shí)施例提供了另一種基于人工智能的語(yǔ)音交互方法，本實(shí)施例更加清楚的說(shuō)明了語(yǔ)音交互的過(guò)程。

如圖4所示，該基于人工智能的語(yǔ)音交互方法包括以下步驟：

步驟201，啟動(dòng)懸浮窗口的應(yīng)用程序。

具體地，懸浮窗口是一種應(yīng)用程序，個(gè)數(shù)可以為一個(gè)或者多個(gè)。

進(jìn)一步，懸浮窗口的展現(xiàn)形式可以有很多種，其中一種可能的實(shí)現(xiàn)方式是透明懸浮窗口，在本實(shí)施例中，對(duì)懸浮窗口的展現(xiàn)方式不做限定。

步驟202，探測(cè)到開(kāi)始進(jìn)行語(yǔ)音交互時(shí)，采集用戶輸入的語(yǔ)音，將所采集的語(yǔ)音發(fā)送至服務(wù)器，識(shí)別得到語(yǔ)音對(duì)應(yīng)的文字，并在懸浮窗口中顯示。

具體地，參照?qǐng)D2，當(dāng)用戶需要進(jìn)行語(yǔ)音交互時(shí)，啟動(dòng)懸浮窗口的應(yīng)用程序，同時(shí)電視系統(tǒng)內(nèi)的麥克風(fēng)啟動(dòng)，并進(jìn)行初始化設(shè)置，根據(jù)麥克風(fēng)預(yù)設(shè)的采樣率和采樣精度對(duì)語(yǔ)音交互過(guò)程中的語(yǔ)音信息進(jìn)行采樣，對(duì)音頻進(jìn)行pcm編碼獲得pcm語(yǔ)音流，將pcm語(yǔ)音流發(fā)送至服務(wù)器進(jìn)行文字識(shí)別，獲得語(yǔ)音對(duì)應(yīng)的文字，并將文字在懸浮窗口中實(shí)時(shí)顯示出來(lái)。

其中，用于顯示語(yǔ)音交互時(shí)識(shí)別得到的文字的懸浮窗口可以有多種展現(xiàn)方式。

作為一種可能的實(shí)現(xiàn)方式是，只設(shè)立一個(gè)懸浮窗口，語(yǔ)音對(duì)應(yīng)的文字，以及交互類(lèi)型為資訊業(yè)務(wù)情況下反饋的用戶交互需求均在該懸浮窗口中實(shí)時(shí)顯示。

需要說(shuō)明的是，在只設(shè)立一個(gè)懸浮窗口時(shí)，可以根據(jù)所需顯示內(nèi)容的多少，對(duì)懸浮窗口的大小進(jìn)行靈活調(diào)整。

作為另一種可能的實(shí)現(xiàn)方式是，設(shè)立2個(gè)懸浮窗口。在識(shí)別文字時(shí)，顯示一個(gè)懸浮窗口，利用該懸浮窗口顯示語(yǔ)音對(duì)應(yīng)的文字；交互類(lèi)型為資訊業(yè)務(wù)情況下，反饋用戶交互需求時(shí)，顯示另一個(gè)懸浮窗口，其中后一個(gè)懸浮窗口浮于前一個(gè)懸浮窗口上方，或者兩個(gè)懸浮窗口不重疊。

為了對(duì)這兩個(gè)懸浮窗口進(jìn)行區(qū)分，可以稱交互類(lèi)型為資訊業(yè)務(wù)情況下反饋的用戶交互需求的懸浮窗口為第一懸浮窗口，顯示語(yǔ)音對(duì)應(yīng)文字的懸浮窗口為第二懸浮窗口。

步驟203，語(yǔ)音采集結(jié)束后，將語(yǔ)音對(duì)應(yīng)的文字發(fā)送至服務(wù)器，服務(wù)器對(duì)文字的語(yǔ)義進(jìn)行識(shí)別，得到交互需求和交互類(lèi)型。

具體地，參照?qǐng)D3，語(yǔ)音采集結(jié)束后，語(yǔ)音對(duì)應(yīng)的文字已經(jīng)識(shí)別出來(lái)，將該文字發(fā)送到服務(wù)器，服務(wù)器將文字進(jìn)行自然語(yǔ)言處理，然后對(duì)文字對(duì)應(yīng)的語(yǔ)義進(jìn)行解析，并對(duì)解析的內(nèi)容進(jìn)行分類(lèi)，得到交互需求和交互類(lèi)型，并返回結(jié)構(gòu)化數(shù)據(jù)到電視系統(tǒng)。

步驟204，判斷用戶的交互類(lèi)型是否為電視業(yè)務(wù)，如果是電視業(yè)務(wù)，執(zhí)行步驟205，否則執(zhí)行步驟206。

具體地，交互類(lèi)型包含電視業(yè)務(wù)和資訊業(yè)務(wù)，電視系統(tǒng)對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理。

當(dāng)交互類(lèi)型為電視業(yè)務(wù)時(shí)，在交互需求為搜索內(nèi)容的關(guān)鍵字的時(shí)候，電視系統(tǒng)在電視業(yè)務(wù)中搜索目標(biāo)內(nèi)容，搜索目標(biāo)內(nèi)容與交互需求所指示的關(guān)鍵字匹配，當(dāng)搜索到目標(biāo)內(nèi)容時(shí)，隱藏懸浮窗口，并在電視業(yè)務(wù)的展示界面內(nèi)顯示目標(biāo)內(nèi)容。在交互需求為電視的指令操作的時(shí)候，則執(zhí)行該指令的操作，同時(shí)隱藏懸浮窗口，在電視業(yè)務(wù)的展示界面內(nèi)顯示操作結(jié)果。

當(dāng)交互類(lèi)型為資訊業(yè)務(wù)時(shí)，通過(guò)交互需求所指示的關(guān)鍵字訪問(wèn)服務(wù)器，得到目標(biāo)內(nèi)容，并將目標(biāo)內(nèi)容在電視業(yè)務(wù)的展示界面上方顯示的懸浮窗口內(nèi)，顯示用戶交互需求的內(nèi)容。

步驟205，在電視業(yè)務(wù)的展示界面上反饋用戶需求。

具體地，當(dāng)交互類(lèi)型為電視業(yè)務(wù)時(shí)，關(guān)閉懸浮窗口，并在電視界面上反饋用戶需求。

步驟206，在電視業(yè)務(wù)的展示界面上方顯示的懸浮窗口中反饋用戶需求。

具體地，當(dāng)交互類(lèi)型為資訊業(yè)務(wù)時(shí)，在電視業(yè)務(wù)的展示界面上方顯示的懸浮窗口中反饋用戶需求。

為了清楚說(shuō)明前述基于人工智能的語(yǔ)音交互方法，下面以具體的電視系統(tǒng)為例，對(duì)前述過(guò)程進(jìn)一步舉例說(shuō)明。

圖5a至圖5g是本發(fā)明實(shí)施例的一種基于人工智能的語(yǔ)音交互方法的示例性操作示意圖。

具體地，圖5a至圖5g是懸浮窗口僅有一個(gè)懸浮窗口的示例。

如圖5a所示，啟動(dòng)懸浮窗口，懸浮窗口可以是半透明的，懸浮窗口不會(huì)占據(jù)超過(guò)二分之一的顯示屏，并在初始態(tài)盡量小。懸浮窗口會(huì)提示用戶系統(tǒng)已經(jīng)準(zhǔn)備好，可以開(kāi)始進(jìn)行語(yǔ)音交互，例如圖5a中懸浮窗口中顯示的文字“度秘能幫你做些什么”，即告訴用戶可以開(kāi)始進(jìn)行語(yǔ)音交互。

如圖5b、5c和5e、5f所示，當(dāng)用戶說(shuō)出“我想看大魚(yú)海棠”或“今天天氣”時(shí)，電視系統(tǒng)的麥克風(fēng)設(shè)備識(shí)別并采集用戶的語(yǔ)音信息，將用戶的語(yǔ)音信息發(fā)送給服務(wù)器，服務(wù)器將語(yǔ)音信息對(duì)應(yīng)的文字識(shí)別出來(lái)，并將文字返回給電視系統(tǒng)，如圖5b和5e所示，語(yǔ)音對(duì)應(yīng)的文字在電視系統(tǒng)的懸浮窗口中實(shí)時(shí)顯示出來(lái)，用戶語(yǔ)音交互的過(guò)程，文字會(huì)持續(xù)實(shí)時(shí)的更新顯示直到語(yǔ)音采集完成，如圖5c和5f所示，語(yǔ)音采集完后，懸浮窗口中顯示用戶語(yǔ)音輸入對(duì)應(yīng)的文字“我想看大魚(yú)海棠”或“今天的天氣”。

當(dāng)語(yǔ)音采集完成后，系統(tǒng)將語(yǔ)音對(duì)應(yīng)的文字發(fā)送到服務(wù)器，進(jìn)行文字語(yǔ)義的識(shí)別，并進(jìn)行文字語(yǔ)義的分類(lèi)，得到用戶的交互需求和交互類(lèi)型，當(dāng)交互類(lèi)型為電視業(yè)務(wù)時(shí)，根據(jù)用戶的交互需求對(duì)應(yīng)的關(guān)鍵字在電視業(yè)務(wù)中搜索目標(biāo)內(nèi)容，當(dāng)搜索到目標(biāo)內(nèi)容后，隱藏懸浮窗口，在電視業(yè)務(wù)的展示界面內(nèi)顯示目標(biāo)內(nèi)容，如圖5d所示。

當(dāng)用戶的交互類(lèi)型為資訊業(yè)務(wù)，例如查詢天氣，當(dāng)用戶輸入語(yǔ)音“今天的天氣”，則會(huì)將懸浮窗口擴(kuò)展，將得到的今天天氣的詳情反饋到擴(kuò)展的懸浮窗口中，如圖5g所示。

作為一種可能的實(shí)現(xiàn)方式，當(dāng)交互類(lèi)型為資訊業(yè)務(wù)時(shí)，懸浮窗口可以為多個(gè)，具體可以設(shè)置為第一懸浮窗口和第二懸浮窗口，第一懸浮窗口用于反饋用戶需求，第二懸浮窗口用于實(shí)時(shí)顯示用戶語(yǔ)音對(duì)應(yīng)的文字，第一懸浮窗口浮于第二懸浮窗口上方，或者第二懸浮窗口與所述第一懸浮窗口不重疊，展現(xiàn)示例同圖5a至圖5g類(lèi)似，此處不做贅述。

更進(jìn)一步，利用懸浮窗口實(shí)時(shí)顯示用戶輸入的語(yǔ)音對(duì)應(yīng)的文字并反饋結(jié)果，還可以訓(xùn)練用戶進(jìn)行表達(dá)，例如，用戶說(shuō)出“我想看大魚(yú)海棠”和“大魚(yú)海棠”，最后系統(tǒng)反饋的結(jié)果相同，從而可以訓(xùn)練用戶的表達(dá)方式，使得系統(tǒng)更易識(shí)別用戶的語(yǔ)音。

為了實(shí)現(xiàn)上述實(shí)施例，本發(fā)明還提出一種基于人工智能的語(yǔ)音交互裝置。

圖6為本發(fā)明實(shí)施例提供的一種基于人工智能的語(yǔ)音交互裝置的結(jié)構(gòu)示意圖。

如圖6所示，該基于人工智能的語(yǔ)音交互裝置包括：采集模61，識(shí)別模塊62和反饋模塊63。

采集模塊61，用于當(dāng)探測(cè)到開(kāi)始進(jìn)行語(yǔ)音交互時(shí)，采集用戶輸入的語(yǔ)音，識(shí)別得到對(duì)應(yīng)的文字。

識(shí)別模塊62，用于對(duì)語(yǔ)音對(duì)應(yīng)的文字進(jìn)行識(shí)別，得到用戶的交互需求和交互類(lèi)型。

反饋模塊63，用于根據(jù)交互類(lèi)型，選擇電視業(yè)務(wù)的展示界面，或者選擇電視業(yè)務(wù)的展示界面上方顯示的懸浮窗口，反饋用戶的交互需求。

進(jìn)一步，作為一種可能的實(shí)現(xiàn)方式，

采集模塊61，具體用于在采集用戶語(yǔ)音的過(guò)程中，將所采集到的語(yǔ)音發(fā)送至服務(wù)器，并從服務(wù)器獲取語(yǔ)音對(duì)應(yīng)的文字。

識(shí)別模塊62，具體用于當(dāng)采集語(yǔ)音結(jié)束時(shí)，將語(yǔ)音對(duì)應(yīng)的文字發(fā)送至服務(wù)器，并從服務(wù)器獲取對(duì)文字解析得到的交互需求和交互類(lèi)型。

需要說(shuō)明的是，前述對(duì)方法實(shí)施例的解釋說(shuō)明也適用于該實(shí)施例的裝置，此處不再贅述。

本發(fā)明實(shí)施例的基于人工智能的語(yǔ)音交互裝置中，采集模塊用于當(dāng)探測(cè)到開(kāi)始進(jìn)行語(yǔ)音交互時(shí)，采集用戶輸入的語(yǔ)音，識(shí)別得到對(duì)應(yīng)的文字。識(shí)別模塊用于對(duì)該文字進(jìn)行識(shí)別，得到用戶的交互需求和交互類(lèi)型。反饋模塊根據(jù)交互類(lèi)型，選擇電視業(yè)務(wù)的展示界面，或者選擇電視業(yè)務(wù)的展示界面上方顯示的懸浮窗口，反饋用戶的交互需求。由于根據(jù)交互類(lèi)型，選擇與交互需求相適應(yīng)的反饋呈現(xiàn)方式，以提高語(yǔ)音交互的呈現(xiàn)效果，避免語(yǔ)音交互過(guò)程對(duì)用戶使用智能電視的過(guò)程造成干擾，解決現(xiàn)有技術(shù)中語(yǔ)音交互呈現(xiàn)效果較差的技術(shù)問(wèn)題。

基于上述實(shí)施例，本發(fā)明實(shí)施例還提供了另一種基于人工智能的語(yǔ)音交互裝置的實(shí)現(xiàn)方式，圖7為本發(fā)明實(shí)施例提供的另一種基于人工智能的語(yǔ)音交互裝置的結(jié)構(gòu)示意圖，在上一實(shí)施例的基礎(chǔ)上，反饋模塊63包括：第一反饋單元631和第二反饋單元632。

第一反饋單元631，用于當(dāng)交互類(lèi)型為電視業(yè)務(wù)時(shí)，在電視業(yè)務(wù)的展示界面內(nèi)，反饋用戶的交互需求。

第二反饋單元632，用于當(dāng)交互類(lèi)型為資訊業(yè)務(wù)時(shí)，在電視業(yè)務(wù)的展示界面上方顯示的懸浮窗口內(nèi)，反饋用戶的交互需求。

作為一種可能的實(shí)現(xiàn)方式，電視業(yè)務(wù)展示界面上方顯示的懸浮窗口包括第一懸浮窗口。

采集模塊61，具體用于當(dāng)探測(cè)到開(kāi)始進(jìn)行語(yǔ)音交互時(shí)，顯示第一懸浮窗口；采集用戶輸入的語(yǔ)音，將所采集到的語(yǔ)音轉(zhuǎn)化為相應(yīng)的文字；在第一懸浮窗口內(nèi)顯示文字。

采集模塊61，還用于擴(kuò)展第一懸浮窗口的顯示大小。

第一反饋單元631，具體用于，當(dāng)交互需求為搜索內(nèi)容的關(guān)鍵字時(shí)，在電視業(yè)務(wù)中，搜索目標(biāo)內(nèi)容，其中，目標(biāo)內(nèi)容與交互需求所指示的關(guān)鍵字匹配；若搜索到目標(biāo)內(nèi)容，隱藏懸浮窗口，并在電視業(yè)務(wù)的展示界面內(nèi)，顯示目標(biāo)內(nèi)容。

第二反饋單元632，具體用于當(dāng)交互類(lèi)型為資訊業(yè)務(wù)時(shí)，在第一懸浮窗口內(nèi)，反饋用戶的交互需求。

進(jìn)一步，作為另一種可能的實(shí)現(xiàn)方式，電視業(yè)務(wù)的展示界面上方顯示的懸浮窗口還包括第二懸浮窗口，其中，第一懸浮窗口浮于第二懸浮窗口上方，或者，第二懸浮窗口與第一懸浮窗口不重疊。

采集模塊61，具體用于：當(dāng)探測(cè)到開(kāi)始進(jìn)行語(yǔ)音交互時(shí)，顯示第二懸浮窗口；采集用戶輸入的語(yǔ)音，將所采集到的語(yǔ)音轉(zhuǎn)化為相應(yīng)的文字；在第二懸浮窗口內(nèi)顯示文字。

需要說(shuō)明的是，前述對(duì)方法實(shí)施例的解釋說(shuō)明也適用于該實(shí)施例的裝置，此處不再贅述。

為達(dá)上述目的，本發(fā)明實(shí)施例還提出了一種計(jì)算機(jī)設(shè)備，包括：存儲(chǔ)器，處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序時(shí)，執(zhí)行前述實(shí)施例中的基于人工智能的語(yǔ)音交互方法。

為達(dá)上述目的，本發(fā)明實(shí)施例還提出了一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該程序被處理器執(zhí)行時(shí)，執(zhí)行前述實(shí)施例中的基于人工智能的語(yǔ)音交互方法。

為達(dá)上述目的，本發(fā)明實(shí)施例還提出了一種計(jì)算機(jī)程序產(chǎn)品，當(dāng)所述程序產(chǎn)品中的指令被處理器執(zhí)行時(shí)，執(zhí)行前述實(shí)施例中的基于人工智能的語(yǔ)音交互方法。

在本說(shuō)明書(shū)的描述中，參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書(shū)中，對(duì)上述術(shù)語(yǔ)的示意性表述不必須針對(duì)的是相同的實(shí)施例或示例。而且，描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。此外，在不相互矛盾的情況下，本領(lǐng)域的技術(shù)人員可以將本說(shuō)明書(shū)中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。

此外，術(shù)語(yǔ)“第一”、“第二”僅用于描述目的，而不能理解為指示或暗示相對(duì)重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此，限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個(gè)該特征。在本發(fā)明的描述中，“多個(gè)”的含義是至少兩個(gè)，例如兩個(gè)，三個(gè)等，除非另有明確具體的限定。

流程圖中或在此以其他方式描述的任何過(guò)程或方法描述可以被理解為，表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)定制邏輯功能或過(guò)程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分，并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn)，其中可以不按所示出或討論的順序，包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序，來(lái)執(zhí)行功能，這應(yīng)被本發(fā)明的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。

在流程圖中表示或在此以其他方式描述的邏輯和/或步驟，例如，可以被認(rèn)為是用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的定序列表，可以具體實(shí)現(xiàn)在任何計(jì)算機(jī)可讀介質(zhì)中，以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計(jì)算機(jī)的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用，或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說(shuō)明書(shū)而言，"計(jì)算機(jī)可讀介質(zhì)"可以是任何可以包含、存儲(chǔ)、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計(jì)算機(jī)可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下：具有一個(gè)或多個(gè)布線的電連接部(電子裝置)，便攜式計(jì)算機(jī)盤(pán)盒(磁裝置)，隨機(jī)存取存儲(chǔ)器(ram)，只讀存儲(chǔ)器(rom)，可擦除可編輯只讀存儲(chǔ)器(eprom或閃速存儲(chǔ)器)，光纖裝置，以及便攜式光盤(pán)只讀存儲(chǔ)器(cdrom)。另外，計(jì)算機(jī)可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì)，因?yàn)榭梢岳缤ㄟ^(guò)對(duì)紙或其他介質(zhì)進(jìn)行光學(xué)掃描，接著進(jìn)行編輯、解譯或必要時(shí)以其他合適方式進(jìn)行處理來(lái)以電子方式獲得所述程序，然后將其存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器中。

應(yīng)當(dāng)理解，本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來(lái)實(shí)現(xiàn)。在上述實(shí)施方式中，多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來(lái)實(shí)現(xiàn)。如，如果用硬件來(lái)實(shí)現(xiàn)和在另一實(shí)施方式中一樣，可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來(lái)實(shí)現(xiàn)：具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門(mén)電路的離散邏輯電路，具有合適的組合邏輯門(mén)電路的專用集成電路，可編程門(mén)陣列(pga)，現(xiàn)場(chǎng)可編程門(mén)陣列(fpga)等。

本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件完成，所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中，該程序在執(zhí)行時(shí)，包括方法實(shí)施例的步驟之一或其組合。

此外，在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理模塊中，也可以是各個(gè)單元單獨(dú)物理存在，也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn)，也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷(xiāo)售或使用時(shí)，也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。

上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器，磁盤(pán)或光盤(pán)等。盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例，可以理解的是，上述實(shí)施例是示例性的，不能理解為對(duì)本發(fā)明的限制，本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2