亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于多模態(tài)輸入進行交互的方法和設備與流程

文檔序號:11627599閱讀:304來源:國知局
基于多模態(tài)輸入進行交互的方法和設備與流程

本發(fā)明涉及計算機領域增強現(xiàn)實技術,尤其涉及一種增強現(xiàn)實智能眼鏡技術。



背景技術:

增強現(xiàn)實(augmentedreality,增強現(xiàn)實)是在自然圖片識別技術的一個子領域,將虛擬三維模型動畫、視頻、文字、圖片等數(shù)字信息實時疊加顯示到真實場景中,并與現(xiàn)實物體或者使用者實現(xiàn)自然互動的創(chuàng)新的人機交互技術,強調虛實融合的自然人機視覺交互。增強現(xiàn)實技術包含了多媒體、三維建模、實時視頻顯示及控制、多傳感器溶合、實時跟蹤及注冊、場景融合等新技術與新手段。由于該技術的先進性和新穎性,增強現(xiàn)實技術的應用和推廣也曾一度處于停滯不前的狀態(tài)。

在移動互聯(lián)網時代,人機交互的一個非常核心的技術問題是如何高效、簡便、自然地連接用戶的線下當前真實場景和線上虛擬的信息和交互。

在現(xiàn)有技術中,實現(xiàn)連接技術核心是計算機對線下物品的感知,包括檢測、識別與跟蹤。實現(xiàn)這種感知的手段大致有兩種:用人工方式給線下物品打標簽、用計算機自動識別線下物品。前者例如二維碼、nfc、wifi定位等技術,需要對每個目標物體進行修改,因此存在功能單一、部署和維護成本高、交互不自然、不直觀、缺少美感等缺點。后者以自然圖片識別技術為基礎,對攝像頭采集的圖像數(shù)據進行智能分析,自動判斷物體身份、類別和空間姿態(tài)等信息,對目標物體不需要任何改變,也更接近人的自然交互。

因此,如何更好地實現(xiàn)用戶線上線下信息鏈接和虛實融合的交互體驗成為業(yè)界主流課題。



技術實現(xiàn)要素:

本發(fā)明的一個目的是提供一種能夠更接近用戶自然交互的智能眼鏡設 備和方法。

根據本申請一方面提供了一種用于智能眼鏡設備基于多模態(tài)輸入進行交互的方法,其中,所述方法包括:

a從多個輸入模塊的至少一個中獲取若干輸入信息,多個所述輸入模塊包括:圖像輸入模塊、聲音輸入模塊、觸控輸入模塊和傳感輸入模塊,若干所述輸入信息包括至少以下任一種:現(xiàn)實場景信息、虛擬場景信息、手勢信息、聲音信息、觸控信息、傳感信息;

b對若干所述輸入信息進行綜合邏輯分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作對象、操作動作和操作參數(shù);

c基于所述操作命令對所述操作對象執(zhí)行相應操作。

進一步地,所述方法還包括:

d獲取用戶待設定操作命令的相關信息,基于所述待設定操作命令的相關信息更新所述操作命令。

進一步地,所述步驟b包括:將若干所述輸入信息發(fā)送至分體控制裝置進行綜合邏輯分析,以生成所述操作命令,其中,所述分體控制裝置與所述智能眼鏡設備本體物理分離,并通過有線或無線方式與所述智能眼鏡設備通信連接。

根據本發(fā)明的另一個方面提供了一種多模態(tài)輸入進行交互的智能眼鏡設備,其中,所述智能眼鏡設備包括:

第一裝置,用于從多個輸入模塊的至少一個中獲取若干輸入信息,多個所述輸入模塊包括:圖像輸入模塊、聲音輸入模塊、觸控輸入模塊和傳感輸入模塊,若干所述輸入信息包括至少以下任一種:現(xiàn)實場景信息、虛擬場景信息、手勢信息、聲音信息、觸控信息、傳感信息;

第二裝置,用于對若干所述輸入信息進行綜合邏輯分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作對象、操作動作和操作參數(shù);

第三裝置,用于基于所述操作命令對所述操作對象執(zhí)行相應操作。

進一步地,所述智能眼鏡設備還包括:分體控制裝置,用于獲取若干 所述輸入信息,并進行綜合邏輯分析,以生成所述操作命令,其中,所述分體控制裝置與所述智能眼鏡設備本體物理分離,并通過有線或無線方式與所述智能眼鏡設備通信連接。

相比于現(xiàn)有技術,本申請所述用于智能眼鏡設備基于多模態(tài)輸入進行交互的方法和智能眼鏡設備通過多個輸入模塊獲取多通道的輸入信息,并對所述輸入信息進行綜合邏輯分析后確定操作對象、操作動作和操作動作的操作元素,以生成操作命令,再基于操作命令執(zhí)行相應操作,從而實時地將現(xiàn)實場景信息、虛擬場景信息、手勢信息、聲音信息、觸控信息、傳感信息融合處理,使用戶更接近自然語言的交互方式,從而提高提供用戶的交互體驗。

進一步地,通過獲取用戶待設定操作命令的相關信息,基于所述待設定操作命令的相關信息更新所述操作命令,使用戶可以自行定義交互操作,提高用戶使用的靈活性。

進一步地,所述智能眼鏡設備通過設置物理分離的分體控制裝置,并以有線或無線的方式通信連接,將所述智能眼鏡設備的處理核心業(yè)務邏輯交由分體控制裝置,能夠降低智能眼鏡設備本身體積和重量,并避免智能眼鏡設備過度散熱導致用戶使用不適。

附圖說明

通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:

圖1示出根據本申請一方面提供的智能眼鏡設備的功能示意圖;

圖2示出根據本申請一方面提供的一種多模態(tài)輸入進行交互的智能眼鏡設備的設備示意圖;

圖3示出根據本申請優(yōu)選實施例提供的一種多模態(tài)輸入進行交互的智能眼鏡設備的設備示意圖;

圖4示出根據本申請一優(yōu)選的實施例所示的智能眼鏡設備基于多模態(tài)輸入進行交互的流程示意圖;

圖5示出根據本申請一優(yōu)選實施例提供的所述智能眼鏡設備基于用戶 操作定義交互操作的過程示意圖;

圖6示出根據本申請一方面提供的一種在智能眼鏡設備端用于多模態(tài)輸入進行交互的流程示意圖;

圖7示出根據本申請優(yōu)選實施例提供的一種智能眼鏡設備端用于多模態(tài)輸入進行交互的方法流程示意圖;

圖8示出根據本申請優(yōu)選實施例提供的一種智能眼鏡設備端利用深度學習網絡法進行綜合邏輯分析的示意圖。

附圖中相同或相似的附圖標記代表相同或相似的部件。

具體實施方式

下面結合附圖對本發(fā)明作進一步詳細描述。

結合圖1,本申請主旨在于,提供一種智能眼鏡設備對多模態(tài)輸入,例如語音、觸摸、手勢、場景等輸入信息進行綜合處理,包括基于輸入信息確定交互操作的操作命令對操作對象(包括電視、燈、洗衣機等具有實體的物體,眼鏡投影顯示的無實體物體等)進行相應操作,此外,還可以為用戶提供定義交互操作的功能。

基于以上,圖2示出根據本申請一方面提供的一種多模態(tài)輸入進行交互的智能眼鏡設備的設備示意圖,其中,所述智能眼鏡設備1包括:第一裝置11、第二裝置12和第三裝置13。

其中,所述第一裝置11從多個輸入模塊的至少一個中獲取若干輸入信息,多個所述輸入模塊包括:圖像輸入模塊、聲音輸入模塊、觸控輸入模塊和傳感輸入模塊,若干所述輸入信息包括至少以下任一種:現(xiàn)實場景信息、虛擬場景信息、手勢信息、聲音信息、觸控信息、傳感信息;所述第二裝置12對若干所述輸入信息進行綜合邏輯分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作對象、操作動作和操作參數(shù);所述第三裝置13基于所述操作命令對所述操作對象執(zhí)行相應操作。

在此,所述智能眼鏡設備1是一種可穿戴智能設備,以眼鏡的硬件載體形式、融合ar(augmentedreality,增強現(xiàn)實)的軟件交互方式,以 實現(xiàn)用戶線上線下的信息鏈接和虛實融合的交互體驗。所述智能眼鏡設備1可以采用任意操作系統(tǒng),如android操作系統(tǒng)、ios操作系統(tǒng)等。如android操作系統(tǒng)、ios操作系統(tǒng)等。所述智能眼鏡設備1的硬件設備可以包括攝像輸入模塊(例如rgb攝像頭、三維攝像頭等)、傳感輸入模塊(例如慣性測量單元imu,包括電子羅盤、加速度、角速度、陀螺儀等)、語音輸入模塊(例如話筒等)、顯示屏、語音播放設備、觸覺輸出設備以及數(shù)據處理模塊等。當然,以上對智能眼鏡設備1所包括硬件設備的描述僅為舉例,今后可能出現(xiàn)的智能眼鏡設備1,如適用本申請,仍可以以引用的方式包含于此。

在此,所述現(xiàn)實場景信息可以是圖片、照片、場景圖像、實物圖像、或有特定形狀物體等。所述增強現(xiàn)實效果可以包括相關聯(lián)的增強現(xiàn)實內容(包括但不限于視頻、語音、鏈接、二維動畫和三維動畫等)和對應的增強現(xiàn)實顯示效果。所述虛擬場景信息可以是在智能眼鏡設備1的所顯示的虛擬圖像。

本申請所述智能眼鏡設備1通過多個輸入模塊獲取多通道的輸入信息,并對所述輸入信息進行綜合邏輯分析后確定操作對象、操作動作和操作動作的操作元素,以生成操作命令,再基于操作命令執(zhí)行相應操作,從而實時地將現(xiàn)實場景信息、虛擬場景信息、手勢信息、聲音信息、觸控信息、傳感信息融合處理,使用戶更接近自然語言的交互方式,從而提高提供用戶的交互體驗。

圖3示出根據本申請優(yōu)選實施例提供的一種多模態(tài)輸入進行交互的智能眼鏡設備的設備示意圖,首先,所述第一裝置11從多個輸入模塊的至少一個中獲取若干輸入信息。在此,所述智能眼鏡設備1通過利用不同通道(即各種輸入模塊)接收用戶的各種自然語言交互方式的輸入信息,以分析用戶行為信息確定操作目標、操作動作和操作參數(shù),操作目標可以是實體,也可以是智能眼鏡設備1的顯示屏上顯示的虛擬物體。

其中,用戶使用的自然語言交互方式通??梢园ǎ簣鼍?,包括當前視野范圍內的背景、實體以及眼鏡投影的用戶界面或物體;手勢,包括手的位置、朝向以及動作;聲音,包括文字信息代表的語義;以及觸摸:包 括手指的力度以及操作動作。

其中,多模態(tài)各個通道的輸入信息主要由以下硬件采集,例如rgb攝像頭獲取場景圖像信息,深度攝像頭獲取手勢信息,麥克風獲取語音信息,觸控板獲取觸控信息等,當然,所述智能眼鏡設備1獲取的輸入信息及使用的硬件設備并不被限定,今后可能出現(xiàn)的獲取方式或獲取設備都可以以引用的方式包含于此。

所述第二裝置12對若干所述輸入信息進行綜合邏輯分析,以生成操作命令。

進一步地,所述智能眼鏡設備1的第二裝置12對各個通道鎖獲取的輸入信息可以采用:對各個輸入模塊所采集到的輸入信息,分別由對應的模塊進行單獨處理,生成格式化數(shù)據,然后,再統(tǒng)一交由多通道交互信息分析和融合模塊處理;也可以創(chuàng)建深度學習模型,采用將各個輸入模塊所采集到的輸入信息的原始數(shù)據直接利用深度學習模型進行融合處理和邏輯分析。

在一優(yōu)選的實施例中,所述第二裝置12包括:第一單元111和第二單元112。其中,所述第一單元111利用對應處理模塊對所述輸入模塊的若干所述輸入信息分別進行識別預處理,以生成若干所述結構化數(shù)據,其中,所述處理模塊包括場景圖像識別模塊、手勢識別模塊、聲音識別模塊、觸控識別模塊和傳感識別模塊;所述第二單元112對若干所述結構化數(shù)據進行融合處理和仲裁分析,以生成操作命令。

進一步地,所述第一單元111可以利用對應識別模塊處理每個通道的輸入信息,包括提取特征和/或分析語義,輸出成結構化數(shù)據,每一通道的輸入信息對應的結構化數(shù)據的結構可以相同或不同,能夠被第二單元112進行融合處理和仲裁分析即可。

其中,所述第一單元111所利用的不同處理模塊可以對應用于識別場景圖像的第一一子單元111a、用于識別手勢信息的第一二子單元111b、用于獲取觸控信息的第一三子單元111c以及用于獲取語言信息的第一四子單元111d。

其中,所述第一一子單元111a利用所述場景圖像識別模塊識別所述 虛擬場景信息和/或所述圖像輸入模塊輸入的現(xiàn)實場景信息,以獲取關于可操作的目標集合的結構化數(shù)據;所述第一二子單元111b利用所述手勢識別模塊識別所述圖像輸入模塊輸入的手勢信息,以獲取關于可操作的目標集合的結構化數(shù)據和/或可操作的動作集合的結構化數(shù)據;所述第一三子單元111c利用所述觸控識別模塊識別所述觸控輸入模塊輸入的觸控信息,以獲取至少以下任一種結構化數(shù)據:關于光標在屏幕上位置的結構化數(shù)據、可操作的動作集合的結構化數(shù)據、輸入參數(shù)的結構化數(shù)據;所述第一四子單元111d利用所述語音識別模塊識別所述語音輸入模塊輸入的語音信息,以獲取至少以下任一種結構化數(shù)據:關于可操作的目標集合的結構化數(shù)據、可操作的動作集合的結構化數(shù)據、輸入參數(shù)的結構化數(shù)據。

根據不同的輸入信息采用不同的處理模塊進行識別預處理,生成預處理后的結構化數(shù)據,并行處理能夠加快數(shù)據處理速度,第二單元112的處理過程不依賴輸入信息的原始數(shù)據,使第一單元111所包括的處理模塊更為靈活。

所述第二單元112所進行的融合和仲裁規(guī)則或訓練模型可以是已預先定義或預先訓練的(包括由開發(fā)者定義初始規(guī)則集或訓練初始模型,或由用戶基于規(guī)則或模型進行更新的模型),規(guī)則可以是自然交互方式間的關系(比如手勢與語音配合或競爭關系等),也可以是機器學習模型(如決策樹、隨機森林等)。

具體地,所述第二單元112可以采用類似填槽法進行融合,即槽為操作命令對應的操作多元組,例如,操作三元組<操作目標,操作動作,操作參數(shù)(可選)>,所述操作三元組中每一元槽為操作元素的操作類型;將結構化數(shù)據按照時序或者優(yōu)先級競爭填槽,當槽填滿并符合業(yè)務執(zhí)行邏輯時,即生成相應操作命令,并進行執(zhí)行。其中,時序與優(yōu)先級的競爭邏輯可以由開發(fā)者定義,也可以由用戶更新。

所述第二單元112利用填槽法進行融合處理時,首先在初始等待狀態(tài),當所述第一單元111將結構化數(shù)據輸入至第二單元112時,則對相應所述結構化數(shù)據邏輯匹配,包括關鍵信息提取和關鍵信息之間的匹配,以確定所述結構化數(shù)據對應的元素類型和相應元素信息,當檢測到至少一個元素 信息時,則切入就緒狀態(tài),并根據元素類型將不同的元素信息填入各操作元素的槽中,并繼續(xù)獲取其他元素類型和相應元素信息,在就緒狀態(tài)中,時刻檢測各操作元素的槽是否填滿,如果填滿則判斷是否符合業(yè)務邏輯,當符合則生成相應操作命令,并清空槽,在交互過程中不斷循環(huán)以上過程。

具體地,所述第二單元112包括:第二一子單元(未示出)、第二二子單元(未示出)、第二三子單元(未示出);其中,所述第二一子單元確定所述結構化數(shù)據所對應的元素類型;所述第二二子單元對具有相同所述元素類型的所述結構化數(shù)據進行邏輯匹配和/或仲裁選擇,以確定相應所述元素類型所對應的所述操作元素的元素信息;第二三子單元當所確定的不同所述元素類型所對應的所述操作元素的元素信息組合后符合執(zhí)行業(yè)務邏輯,則基于相應所述操作元素的元素信息生成操作命令。

進一步地,所述第二二子單元包括:第二四子單元、第二五子單元和第二六子單元,其中,所述第二四子單元對具有相同所述元素類型的所述結構化數(shù)據進行邏輯匹配,以確定至少一個待選元素信息;第二五子單元對所述待選元素信息進行仲裁選擇,以選取其中一個作為選取元素信息;第二六子單元根據所述選取元素信息確定相應所述元素類型所對應的所述操作元素的元素信息。

所述第二二子單元還包括:第二七子單元,用于當所確定的不同所述元素類型所對應的所述操作元素的元素信息組合后不符合執(zhí)行業(yè)務邏輯,則重新對其余所述待選元素信息進行仲裁選擇,以重新選取其中一個作為選取元素信息;第二八子單元,用于當重新選取時間超出超時時間或所有所述待選元素信息所確定的元素信息的組合都不符合執(zhí)行業(yè)務邏輯,則清空所有操作類型對應的操作元素的元素信息。所述第二七子單元和所述二八子單元用于在元素信息組合后不符合執(zhí)行業(yè)務邏輯時,重新選取元素信息進行判斷。

所述第二五子單元用于:根據所述待選元素信息的時序和/或優(yōu)先級排序進行競爭選擇;當所述待選元素信息的時序及優(yōu)先級排序均相同時進行隨機選擇,以選取其中一個作為所述選取元素信息。

所述第二五子單元對所述待選元素信息進行仲裁選擇,可以按照時間 順序競爭,例如,若先采集到手勢信息,則手勢識別模塊分析得到的結構化數(shù)據優(yōu)先填入操作目標的槽中;若同時輸入或輸入時間差小于設定閾值,則按照已定義的優(yōu)先級進行競爭,例如語音輸入信息優(yōu)先級高于手勢輸入信息,則語音識別模塊提取的語音信息所生成的結構化數(shù)據優(yōu)先填入相應槽中;此外,若如若輸入時間相同,優(yōu)先級相同,則隨機選擇某個填入相應槽中,未被選中的結構化數(shù)據進入緩沖隊列中等待再次調取或直接丟棄。

所述第二六子單元將所述選取元素信息確定為相應所述元素信息過程需判斷對應操作元素中是否已有元素信息,若已有需判斷當前已有所述元素信息和所述選取元素信息的優(yōu)先級,如果所述選取元素信息的優(yōu)先級較高,則需替換掉已有所述元素信息,具體地,所述第二六子單元判斷當前是否已有相應所述元素類型所對應的所述操作元素的元素信息;若已有,則判斷所述選取元素信息的優(yōu)先級是否高于所述已有的元素信息;若高于,則所述選取元素信息替代所述已有的元素信息,確定為相應所述元素類型所對應的所述操作元素的元素信息。例如,若語音信息的優(yōu)先級較高,當根據圖像識別已確定的操作目標為電視后(且還未確定輸出操作命令前),根據語音信息識別到操作目標為手機,則所述第二六子單元根據語音信息的優(yōu)先級較高的原則,將操作目標的元素信息由“電視”更改為“手機”。

圖4示出根據本申請一優(yōu)選的實施例所示的智能眼鏡設備基于多模態(tài)輸入進行交互的流程示意圖,智能眼鏡設備可以由其rgb攝像機采集場景圖像,深度攝像機采集手勢圖像,麥克風采集語音信息、觸控板采集觸控信息,接著,從場景圖像中識別出當前視角的場景圖像中所有可操作的物體,例如客廳中的電視、窗簾、燈等,以物體名稱組成物體庫,作為可操作的目標集合;將用戶所說的語音轉換成文字,進行簡單地語義分析,提取出動詞、名詞、代詞等,動詞可能為操作動作,名詞和代詞可能指向操作目標;實時跟蹤手的位置,判斷手的指向,分析手勢對應的操作,觸控識別出感應觸摸操作,可以獲取觸控指向的光標的位置和相應的操作,例如分析用戶滑動操作時,計算光標移動的位置,分析用戶觸摸到壓力來判斷單擊或雙擊操作等。接著,當智能眼鏡設備處于等待狀態(tài)時,智能眼鏡設備將同時等待用戶語音、手勢和觸摸等多個通道的信息輸入;當只有 一個通道輸入時,例如語音信息輸入時,智能眼鏡設備直接根據語音內容做出決策;當這些通道同時有信息輸入時,智能眼鏡設備并行分析各個通道的信息,然后根據時序或者優(yōu)先級做出決策。例如語音信息先輸入且優(yōu)先級最高,則首先分析語音的內容,如果語音內容對操作的理解不構成歧義,則直接根據語音內容進行操作。如果語音內容還需要其它通道信息作為補充才能構成完整的操作三元組,則需結合其它通道信息,根據信息互補模式下的工作方式進行綜合判斷。如:當用戶說“請將這邊的內容告訴我”時,智能眼鏡設備會根據手勢所指方向,來做出判斷,并給出信息反饋;當沒有語音信息輸入,但是智能眼鏡設備檢測到觸摸移動或手勢變化時,根據這幾個通道的信息判斷用戶的操作。如:用戶舉出“ok”手勢時,表示同意;而“擺手”則表示不同意;用戶觸摸滑動,表示移動光標;而用戶單擊或雙擊觸摸,表示選中或打開。在這種情況下,智能眼鏡設備根據當前通道輸入的信息進行操作分析。對應設備分別采集對應通道的數(shù)據,然后利用以訓練好的模型將各個通道的信息轉化成結構化數(shù)據;最后匯總每個通道的結構化數(shù)據,使用已訓練好的操作模型進行判斷,輸出操作三元組,并按三元組執(zhí)行相應操作。

此外,所述第二單元112還可以采用機器學習法對所有所述結構化數(shù)據進行邏輯匹配和仲裁選擇,以確定每一所述元素類型所對應的所述操作元素的元素信息,其中,所述機器學習法包括至少以下任一項:決策樹法、隨機森林法、卷積神經網絡法。

在另一優(yōu)選的實施例中,所述第二裝置包括第三單元(未示出)和第四單元(未示出),所述第三單元創(chuàng)建深度學習神經網絡構架模型;所述第四單元將所述輸入信息的原始數(shù)據輸入所述深度學習神經網絡構架模型中進行融合處理和模型運算,以生成操作命令。

其中,所述深度學習神經網絡構架模型為卷積神經網絡構架模型。

圖8示出根據本申請優(yōu)選實施例提供的一種智能眼鏡設備端利用深度學習網絡法進行綜合邏輯分析的示意圖,在此,所述卷積神經網絡(convolutionalneuralnetworks,cnn)是人工神經網絡的一種,用于語音分析和圖像識別。它更類似于生物神經網絡,降低了網絡模型的復雜度, 減少了權值的數(shù)量。在網絡的輸入是多維數(shù)據時表現(xiàn)的更為優(yōu)越,使原始數(shù)據可以直接作為網絡的輸入,避免了傳統(tǒng)識別算法中復雜的特征提取和數(shù)據重建的過程。

其中,cnn的基本結構包括兩層,其一為特征提取層,每個神經元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其它特征間的位置關系也隨之確定下來;其二是特征映射層,網絡的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經元的權值相等。特征映射結構可以采用影響函數(shù)核小的sigmoid函數(shù)(s形生長曲線函數(shù))作為卷積網絡的激活函數(shù),使得特征映射具有位移不變性。

此外,由于一個映射面上的神經元共享權值,因而減少了網絡自由參數(shù)的個數(shù)。卷積神經網絡中的每一個卷積層都緊跟著一個用來求局部平均與二次提取的計算層,這種特有的兩次特征提取結構減小了特征分辨率。cnn主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。由于cnn的特征檢測層通過訓練數(shù)據進行學習,所以在使用cnn時,避免了顯示的特征抽取,而隱式地從訓練數(shù)據中進行學習;再者由于同一特征映射面上的神經元權值相同,所以網絡可以并行學習,這也是卷積網絡相對于神經元彼此相連網絡的一大優(yōu)勢。

卷積神經網絡以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優(yōu)越性,其布局更接近于實際的生物神經網絡,權值共享降低了網絡的復雜性,特別是多維輸入向量的圖像可以直接輸入網絡這一特點避免了特征提取和分類過程中數(shù)據重建的復雜度。

在本申請一優(yōu)選實施例中選取深度學習中的卷積神經網絡來實現(xiàn)多模態(tài)交互數(shù)據的融合。具體實現(xiàn)步驟包括:

獲取各個輸入模塊定期(按一定時間間隔)采集的輸入信號的原始數(shù)據,并將所述原始數(shù)據轉換為矩陣形式的數(shù)據;

將矩陣形式的數(shù)據輸入已完成參數(shù)訓練的卷積神經網絡結構模型中,以生成相應操作命令。

在一優(yōu)選的實施例中,鑒于訓練數(shù)據集小,訓練數(shù)據維度高,可以采 用以下網絡結構來完成多模態(tài)交互數(shù)據融合。卷積神經網絡結構模型包含6個卷積層。每個卷積層后都接一個激活函數(shù)(rectifiedlinearunits,relu);在第2、4、6個卷積層后分別都接了一個降采樣層,其中,降采樣都使用平均降采樣;在卷積神經網絡結構模型的最后使用了兩個全連接層,將數(shù)據拉成一個向量,以用于分類;在全連接層后輸出是向量,包含了所有類別的評分,評分最高的類,即為所確定的操作命令(例如包括操作三元組)。

進一步地,所述智能眼鏡設備1還包括:所述分體控制裝置(未示出),用于獲取若干所述輸入信息,并進行綜合邏輯分析,以生成所述操作命令,其中,所述分體控制裝置與所述智能眼鏡設備1本體物理分離,并通過有線或無線方式與所述智能眼鏡設備1通信連接。

在此,所述分體控制裝置對所述輸入信息進行綜合邏輯分析的內容可以與圖3中第二裝置12的內容相同或基本相同,為簡明期間,不再贅述,并以引用的方式包含于此。

所述智能眼鏡設備1通過設置物理分離的分體控制裝置,并以有線或無線的方式通信連接,將所述智能眼鏡設備1的處理核心業(yè)務邏輯交由分體控制裝置,能夠降低智能眼鏡設備1本身體積和重量,并避免智能眼鏡設備1過度散熱導致用戶使用不適。

所述智能眼鏡設備1還包括:第四裝置(未示出),其中,所述第四裝置用于獲取用戶對所述操作命令的判斷信息,基于所述操作命令及對應所述判斷信息更新綜合邏輯分析的訓練相應模型。所述智能眼鏡設備1提供定義交互操作的功能,即根據用戶指定的操作命令對應的操作元素,對所獲取的輸入信息提取特征和/或分析語義,最后輸出成結構化數(shù)據(所述結構化數(shù)據的結構可以相同或不同),建立所述數(shù)據化格式,建立分析獲得的結構化數(shù)據與用戶所指定的操作命令之間的關聯(lián)關系,更新已有規(guī)則集或機器學習模型。

圖5示出根據本申請一優(yōu)選實施例提供的所述智能眼鏡設備基于用戶操作定義交互操作的過程示意圖。

具體地,所述智能眼鏡設備1根據用戶的選定,進入定義交互操作狀態(tài);

根據用戶的選定,確定與待定義的操作命令相關的相應輸入模塊的輸入信息,具體地:啟動多個輸入模塊,獲取用戶對每一個操作元素的定義操作的輸入信息,例如提示用戶對操作目標的待選階段,用戶對著麥克風說“電視”語音、或手勢指向當前視野范圍內現(xiàn)實場景中的“電視”實體、或利用觸控設備選定視野范圍內現(xiàn)實場景中的“電視”實體等;再例如在用戶對操作動作的待選階段,根據語音輸入“開”、開啟含義的手勢輸入、及開啟含義的觸控輸入等;

接著,分別使用各個通道技術(例如圖像識別、手勢識別、觸控識別和語音識別等)提取用戶對每一操作元素的定義操作的輸入信息,進行特征提取和語義分析,并轉化為結構化數(shù)據;

最后,將各個操作類型中操作元素所對應的結構化數(shù)據建立相應關聯(lián),并生成相應操作命令,并將相應操作命令對應的業(yè)務邏輯更新至已有規(guī)則或模型中。

通過獲取用戶待設定操作命令的相關信息,基于所述待設定操作命令的相關信息更新更新所述操作命令,使用戶可以自行定義交互操作,提高用戶使用的靈活性。

圖6示出根據本申請一方面提供的一種在智能眼鏡設備端用于多模態(tài)輸入進行交互的流程示意圖,其中,所述方法包括:步驟s11、步驟s12和步驟s13。

其中,所述步驟s11從多個輸入模塊的至少一個中獲取若干輸入信息,多個所述輸入模塊包括:圖像輸入模塊、聲音輸入模塊、觸控輸入模塊和傳感輸入模塊,若干所述輸入信息包括至少以下任一種:現(xiàn)實場景信息、虛擬場景信息、手勢信息、聲音信息、觸控信息、傳感信息;所述步驟s12對若干所述輸入信息進行綜合邏輯分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作對象、操作動作和操作參數(shù);所述步驟s13基于所述操作命令對所述操作對象執(zhí)行相應操作。

在此,所述智能眼鏡設備1是一種可穿戴智能設備,以眼鏡的硬件載體形式、融合ar(augmentedreality,增強現(xiàn)實)的軟件交互方式,以實現(xiàn)用戶線上線下的信息鏈接和虛實融合的交互體驗。所述智能眼鏡設備 1可以采用任意操作系統(tǒng),如android操作系統(tǒng)、ios操作系統(tǒng)等。如android操作系統(tǒng)、ios操作系統(tǒng)等。所述智能眼鏡設備1的硬件設備可以包括攝像輸入模塊(例如rgb攝像頭、三維攝像頭等)、傳感輸入模塊(例如慣性測量單元imu,包括電子羅盤、加速度、角速度、陀螺儀等)、語音輸入模塊(例如話筒等)、顯示屏、語音播放設備、觸覺輸出設備以及數(shù)據處理模塊等。當然,以上對智能眼鏡設備1所包括硬件設備的描述僅為舉例,今后可能出現(xiàn)的智能眼鏡設備1,如適用本申請,仍可以以引用的方式包含于此。

在此,所述現(xiàn)實場景信息可以是圖片、照片、場景圖像、實物圖像、或有特定形狀物體等。所述增強現(xiàn)實效果可以包括相關聯(lián)的增強現(xiàn)實內容(包括但不限于視頻、語音、鏈接、二維動畫和三維動畫等)和對應的增強現(xiàn)實顯示效果。所述虛擬場景信息可以是在智能眼鏡設備1的所顯示的虛擬圖像。

本申請所述智能眼鏡設備1通過多個輸入模塊獲取多通道的輸入信息,并對所述輸入信息進行綜合邏輯分析后確定操作對象、操作動作和操作動作的操作元素,以生成操作命令,再基于操作命令執(zhí)行相應操作,從而實時地將現(xiàn)實場景信息、虛擬場景信息、手勢信息、聲音信息、觸控信息、傳感信息融合處理,使用戶更接近自然語言的交互方式,從而提高提供用戶的交互體驗。

圖7示出根據本申請優(yōu)選實施例提供的一種智能眼鏡設備端用于多模態(tài)輸入進行交互的方法流程示意圖,首先,所述步驟s11從多個輸入模塊的至少一個中獲取若干輸入信息。在此,所述智能眼鏡設備1通過利用不同通道(即各種輸入模塊)接收用戶的各種自然語言交互方式的輸入信息,以分析用戶行為信息確定操作目標、操作動作和操作參數(shù),操作目標可以是實體,也可以是智能眼鏡設備1的顯示屏上顯示的虛擬物體。

其中,用戶使用的自然語言交互方式通??梢园ǎ簣鼍?,包括當前視野范圍內的背景、實體以及眼鏡投影的用戶界面或物體;手勢,包括手的位置、朝向以及動作;聲音,包括文字信息代表的語義;以及觸摸:包括手指的力度以及操作動作。

其中,多模態(tài)各個通道的信息主要由以下硬件采集,例如rgb攝像頭獲取場景圖像信息,深度攝像頭獲取手勢信息,麥克風獲取語音信息,觸控板獲取觸控信息等,當然,所述智能眼鏡設備1獲取的輸入信息及使用的硬件設備并不被限定,今后可能出現(xiàn)的獲取方式或獲取設備都可以以引用的方式包含于此。

所述步驟s12對若干所述輸入信息進行綜合邏輯分析,以生成操作命令。

進一步地,步驟s12中所述智能眼鏡設備1對各個通道鎖獲取的輸入信息可以采用對各個輸入模塊所采集到的輸入信息,分別由對應的模塊進行單獨處理,生成格式化數(shù)據,然后,再統(tǒng)一交由多通道交互信息分析和融合模塊處理;也可以創(chuàng)建深度學習模型,采用將各個輸入模塊所采集到的輸入信息的原始數(shù)據直接利用深度學習模型進行融合處理和邏輯分析。

在一優(yōu)選的實施例中,所述步驟s12包括:步驟s111:利用對應處理模塊對所述輸入模塊的若干所述輸入信息分別進行識別預處理,以生成若干所述結構化數(shù)據,其中,所述處理模塊包括場景圖像識別模塊、手勢識別模塊、聲音識別模塊、觸控識別模塊和傳感識別模塊;步驟s112:對若干所述結構化數(shù)據進行融合處理和仲裁分析,以生成操作命令。

進一步地,在所述步驟s111中,所述智能眼鏡設備1可以利用對應識別模塊處理每個通道的輸入信息,包括提取特征和/或分析語義,輸出成結構化數(shù)據,每一通道的輸入信息對應的結構化數(shù)據的結構可以相同或不同,以進行融合處理和仲裁分析即可。

其中,所述智能眼鏡設備1所利用的不同處理模塊處理輸入信息,其中,所述步驟s111a利用所述場景圖像識別模塊識別所述虛擬場景信息和/或所述圖像輸入模塊輸入的現(xiàn)實場景信息,以獲取關于可操作的目標集合的結構化數(shù)據;所述步驟s111b利用所述手勢識別模塊識別所述圖像輸入模塊輸入的手勢信息,以獲取關于可操作的目標集合的結構化數(shù)據和/或可操作的動作集合的結構化數(shù)據;所述步驟s111c利用所述觸控識別模塊識別所述觸控輸入模塊輸入的觸控信息,以獲取至少以下任一種結構化數(shù)據:關于光標在屏幕上位置的結構化數(shù)據、可操作的動作集合的結構化 數(shù)據、輸入參數(shù)的結構化數(shù)據;所述步驟s111d利用所述語音識別模塊識別所述語音輸入模塊輸入的語音信息,以獲取至少以下任一種結構化數(shù)據:關于可操作的目標集合的結構化數(shù)據、可操作的動作集合的結構化數(shù)據、輸入參數(shù)的結構化數(shù)據。

根據不同的輸入信息采用不同的處理模塊進行識別預處理,生成預處理后的結構化數(shù)據,并行處理能夠加快數(shù)據處理速度,步驟s112的處理過程不依賴輸入信息的原始數(shù)據,使步驟s111所包括的處理模塊更為靈活。

所述步驟s112所進行的融合模型和仲裁規(guī)則或模型可以是已預先定義或預先訓練的(包括由開發(fā)者定義初始規(guī)則集或訓練初始模型,或由用戶基于規(guī)則或模型進行更新的模型),規(guī)則可以是自然交互方式間的關系(比如手勢與語音配合或競爭關系等),也可以是機器學習模型(如決策樹、隨機森林等)。

具體地,所述步驟s112可以采用類似填槽法進行融合,即槽為操作命令對應的操作多元組,例如,操作三元組<操作目標,操作動作,操作參數(shù)(可選)>,所述操作三元組中每一元槽為操作元素的操作類型;將結構化數(shù)據按照時序或者優(yōu)先級競爭填槽,當槽填滿并符合業(yè)務執(zhí)行邏輯時,即生成相應操作命令,并進行執(zhí)行。其中,時序與優(yōu)先級的競爭邏輯可以由開發(fā)者定義,也可以由用戶更新。

所述步驟s112中,智能眼鏡設備1利用填槽法進行融合處理時,首先在初始等待狀態(tài),當智能眼鏡設備1生成結構化數(shù)據時,則對相應所述結構化數(shù)據邏輯匹配,包括關鍵信息提取和關鍵信息之間的匹配,以確定所述結構化數(shù)據對應的元素類型和相應元素信息,當檢測到至少一個元素信息時,則切入就緒狀態(tài),并根據元素類型將不同的元素信息填入各操作元素的槽中,并繼續(xù)獲取其他元素類型和相應元素信息,在就緒狀態(tài)中,時刻檢測各操作元素的槽是否填滿,如果填滿則判斷是否符合業(yè)務邏輯,當符合則生成相應操作命令,并清空槽,在交互過程中不斷循環(huán)以上過程。

具體地,所述步驟s112包括:確定所述結構化數(shù)據所對應的元素類型;對具有相同所述元素類型的所述結構化數(shù)據進行邏輯匹配和/或仲裁選 擇,以確定相應所述元素類型所對應的所述操作元素的元素信息;當所確定的不同所述元素類型所對應的所述操作元素的元素信息組合后符合執(zhí)行業(yè)務邏輯,則基于相應所述操作元素的元素信息生成操作命令。

進一步地,對具有相同所述元素類型的所述結構化數(shù)據進行邏輯匹配和/或仲裁選擇,以確定相應所述元素類型所對應的所述操作元素的元素信息包括:對具有相同所述元素類型的所述結構化數(shù)據進行邏輯匹配,以確定至少一個待選元素信息;對所述待選元素信息進行仲裁選擇,以選取其中一個作為選取元素信息;根據所述選取元素信息確定相應所述元素類型所對應的所述操作元素的元素信息。

在對所述待選元素信息進行仲裁選擇,以選取其中一個作為選取元素信息中:智能眼鏡設備1根據所述待選元素信息的時序和/或優(yōu)先級排序進行競爭選擇;當所述待選元素信息的時序及優(yōu)先級排序均相同時進行隨機選擇,以選取其中一個作為所述選取元素信息。

智能眼鏡設備1對所述待選元素信息進行仲裁選擇,可以按照時間順序競爭,例如,若先采集到手勢信息,則手勢識別模塊分析得到的結構化數(shù)據優(yōu)先填入操作目標的槽中;若同時輸入或輸入時間差小于設定閾值,則按照已定義的優(yōu)先級進行競爭,例如語音輸入信息優(yōu)先級高于手勢輸入信息,則語音識別模塊提取的語音信息所生成的結構化數(shù)據優(yōu)先填入相應槽中;此外,若如若輸入時間相同,優(yōu)先級相同,則隨機選擇某個填入相應槽中,未被選中的結構化數(shù)據進入緩沖隊列中等待再次調取或直接丟棄。

智能眼鏡設備1將所述選取元素信息確定為相應所述元素信息過程需判斷對應操作元素中是否已有元素信息,若已有需判斷當前已有所述元素信息和所述選取元素信息的優(yōu)先級,如果所述選取元素信息的優(yōu)先級較高,則需替換掉已有所述元素信息,具體地,所述第二六子單元判斷當前是否已有相應所述元素類型所對應的所述操作元素的元素信息;若已有,則判斷所述選取元素信息的優(yōu)先級是否高于所述已有的元素信息;若高于,則所述選取元素信息替代所述已有的元素信息,確定為相應所述元素類型所對應的所述操作元素的元素信息。例如,若語音信息的優(yōu)先級較高,當根據圖像識別已確定的操作目標為電視后(且還未確定輸出操作命令前), 根據語音信息識別到操作目標為手機,則根據語音信息的優(yōu)先級較高的原則,將操作目標的元素信息由“電視”更改為“手機”。

智能眼鏡設備1還可以當所確定的不同所述元素類型所對應的所述操作元素的元素信息組合后不符合執(zhí)行業(yè)務邏輯,則重新對其余所述待選元素信息進行仲裁選擇,以重新選取其中一個作為選取元素信息;當重新選取時間超出超時時間或所有所述待選元素信息所確定的元素信息的組合都不符合執(zhí)行業(yè)務邏輯,則清空所有操作類型對應的操作元素的元素信息,以在元素信息組合后不符合執(zhí)行業(yè)務邏輯時,重新選取元素信息進行判斷。

結合圖4,智能眼鏡設備1由rgb攝像機采集場景圖像,深度攝像機采集手勢圖像,麥克風采集語音信息、觸控板采集觸控信息,接著,從場景圖像中識別出當前視角的場景圖像中所有可操作的物體,例如客廳中的電視、窗簾、燈等,以物體名稱組成物體庫,作為可操作的目標集合;將用戶所說的語音轉換成文字,進行簡單地語義分析,提取出動詞、名詞、代詞等,動詞可能為操作動作,名詞和代詞可能指向操作目標;實時跟蹤手的位置,判斷手的指向,分析手勢對應的操作,觸控識別出感應觸摸操作,可以獲取觸控指向的光標的位置和相應的操作,例如分析用戶滑動操作時,計算光標移動的位置,分析用戶觸摸到壓力來判斷單擊或雙擊操作等。接著,當智能眼鏡設備處于等待狀態(tài)時,智能眼鏡設備將同時等待用戶語音、手勢和觸摸等多個通道的信息輸入;當只有一個通道輸入時,例如語音信息輸入時,智能眼鏡設備直接根據語音內容做出決策;當這些通道同時有信息輸入時,智能眼鏡設備并行分析各個通道的信息,然后根據時序或者優(yōu)先級做出決策。例如語音信息先輸入且優(yōu)先級最高,則首先分析語音的內容,如果語音內容對操作的理解不構成歧義,則直接根據語音內容進行操作。如果語音內容還需要其它通道信息作為補充才能構成完整的操作三元組,則需結合其它通道信息,根據信息互補模式下的工作方式進行綜合判斷。如:當用戶說“請將這邊的內容告訴我”時,智能眼鏡設備會根據手勢所指方向,來做出判斷,并給出信息反饋;當沒有語音信息輸入,但是智能眼鏡設備檢測到觸摸移動或手勢變化時,根據這幾個通道的信息判斷用戶的操作。如:用戶舉出“ok”手勢時,表示同意;而“擺 手”則表示不同意;用戶觸摸滑動,表示移動光標;而用戶單擊或雙擊觸摸,表示選中或打開。在這種情況下,智能眼鏡設備1根據當前通道輸入的信息進行操作分析。對應設備分別采集對應通道的數(shù)據,然后利用以訓練好的模型將各個通道的信息轉化成結構化數(shù)據;最后匯總每個通道的結構化數(shù)據,使用已訓練好的操作模型進行判斷,輸出操作三元組,并按三元組執(zhí)行相應操作。

此外,所述步驟s112還可以采用機器學習法對所有所述結構化數(shù)據進行邏輯匹配和仲裁選擇,以確定每一所述元素類型所對應的所述操作元素的元素信息,其中,所述機器學習法包括至少以下任一項:決策樹法、隨機森林法、卷積神經網絡法。

在另一優(yōu)選的實施例中,所述步驟s12包括:創(chuàng)建深度學習神經網絡構架模型;將所述輸入信息的原始數(shù)據輸入所述深度學習神經網絡構架模型中進行融合處理和模型運算,以生成操作命令。

其中,所述深度學習神經網絡構架模型為卷積神經網絡構架模型。

在此,所述卷積神經網絡(convolutionalneuralnetworks,cnn)是人工神經網絡的一種,用于語音分析和圖像識別。它更類似于生物神經網絡,降低了網絡模型的復雜度,減少了權值的數(shù)量。在網絡的輸入是多維數(shù)據時表現(xiàn)的更為優(yōu)越,使原始數(shù)據可以直接作為網絡的輸入,避免了傳統(tǒng)識別算法中復雜的特征提取和數(shù)據重建的過程。

其中,cnn的基本結構包括兩層,其一為特征提取層,每個神經元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其它特征間的位置關系也隨之確定下來;其二是特征映射層,網絡的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經元的權值相等。特征映射結構可以采用影響函數(shù)核小的sigmoid函數(shù)(s形生長曲線函數(shù))作為卷積網絡的激活函數(shù),使得特征映射具有位移不變性。

此外,由于一個映射面上的神經元共享權值,因而減少了網絡自由參數(shù)的個數(shù)。卷積神經網絡中的每一個卷積層都緊跟著一個用來求局部平均與二次提取的計算層,這種特有的兩次特征提取結構減小了特征分辨率。 cnn主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。由于cnn的特征檢測層通過訓練數(shù)據進行學習,所以在使用cnn時,避免了顯示的特征抽取,而隱式地從訓練數(shù)據中進行學習;再者由于同一特征映射面上的神經元權值相同,所以網絡可以并行學習,這也是卷積網絡相對于神經元彼此相連網絡的一大優(yōu)勢。

卷積神經網絡以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優(yōu)越性,其布局更接近于實際的生物神經網絡,權值共享降低了網絡的復雜性,特別是多維輸入向量的圖像可以直接輸入網絡這一特點避免了特征提取和分類過程中數(shù)據重建的復雜度。

在本申請一優(yōu)選實施例中選取深度學習中的卷積神經網絡來實現(xiàn)多模態(tài)交互數(shù)據的融合。具體實現(xiàn)步驟包括:

獲取各個輸入模塊定期(按一定時間間隔)采集的輸入信號的原始數(shù)據,并將所述原始數(shù)據轉換為矩陣形式的數(shù)據;

將矩陣形式的數(shù)據輸入已完成參數(shù)訓練的卷積神經網絡結構模型中,以生成相應操作命令。

在一優(yōu)選的實施例中,鑒于訓練數(shù)據集小,訓練數(shù)據維度高,可以采用以下網絡結構來完成多模態(tài)交互數(shù)據融合。卷積神經網絡結構模型包含6個卷積層。每個卷積層后都接一個激活函數(shù)(rectifiedlinearunits,relu);在第2、4、6個卷積層后分別都接了一個降采樣層,其中,降采樣都使用平均降采樣;在卷積神經網絡結構模型的最后使用了兩個全連接層,將數(shù)據拉成一個向量,以用于分類;在全連接層后輸出是向量,包含了所有類別的評分,評分最高的類,即為所確定的操作命令(例如包括操作三元組)。

進一步地,所述智能眼鏡設備1具有所述分體控制裝置(未示出),所述分體控制裝置用于幫助獲取若干所述輸入信息,并進行綜合邏輯分析,以生成所述操作命令,其中,所述分體控制裝置與所述智能眼鏡設備1本體物理分離,并通過有線或無線方式與所述智能眼鏡設備1通信連接。所述分體控制裝置能夠處理智能眼鏡設備1的核心業(yè)務邏輯,并存儲數(shù)據,能夠大幅減輕所述智能眼鏡設備1本身的設備重量,并降低所述智能眼鏡設備1的散熱等其他問題。

在此,所述分體控制裝置對所述輸入信息進行綜合邏輯分析的內容可以與圖3中步驟s12處理過程的內容相同或基本相同,為簡明期間,不再贅述,并以引用的方式包含于此。

所述智能眼鏡設備1通過設置物理分離的分體控制裝置,并以有線或無線的方式通信連接,將所述智能眼鏡設備1的處理核心業(yè)務邏輯交由分體控制裝置,能夠降低智能眼鏡設備1本身體積和重量,并避免智能眼鏡設備1過度散熱導致用戶使用不適。

所述智能眼鏡設備1還包括:獲取用戶對所述操作命令的判斷信息,基于所述操作命令及對應所述判斷信息更新綜合邏輯分析的訓練相應模型。所述智能眼鏡設備1提供定義交互操作的功能,即根據用戶指定的操作命令對應的操作元素,對所獲取的輸入信息提取特征和/或分析語義,最后輸出成結構化數(shù)據(所述結構化數(shù)據的結構可以相同或不同),建立所述數(shù)據化格式,建立分析獲得的結構化數(shù)據與用戶所指定的操作命令之間的關聯(lián)關系,更新已有規(guī)則集或機器學習模型。

結合圖5,具體地,所述智能眼鏡設備1還具有定義用戶交互操作的功能。

具體地,根據用戶的選定,進入定義交互操作狀態(tài);

根據用戶的選定,確定與待定義的操作命令相關的相應輸入模塊的輸入信息,具體地:啟動多個輸入模塊,獲取用戶對每一個操作元素的定義操作的輸入信息,例如提示用戶對操作目標的待選階段,用戶對著麥克風說“電視”語音、或手勢指向當前視野范圍內現(xiàn)實場景中的“電視”實體、或利用觸控設備選定視野范圍內現(xiàn)實場景中的“電視”實體等;再例如在用戶對操作動作的待選階段,根據語音輸入“開”、開啟含義的手勢輸入、及開啟含義的觸控輸入等;

接著,分別使用各個通道技術(例如圖像識別、手勢識別、觸控識別和語音識別等)提取用戶對每一操作元素的定義操作的輸入信息,進行特征提取和語義分析,并轉化為結構化數(shù)據;

最后,將各個操作類型中操作元素所對應的結構化數(shù)據建立相應關聯(lián),并生成相應操作命令,并將相應操作命令對應的業(yè)務邏輯更新至已有規(guī)則 或模型中。

通過獲取用戶待設定操作命令的相關信息,基于所述待設定操作命令的相關信息更新所述操作命令,使用戶可以自行定義交互操作,提高用戶使用的靈活性。

所述智能眼鏡設備1通過獲取用戶待設定操作命令的相關信息,基于所述待設定操作命令的相關信息更新所述操作命令,使用戶可以自行定義交互操作,提高用戶使用的靈活性。

相比于現(xiàn)有技術,本申請所述用于智能眼鏡設備1基于多模態(tài)輸入進行交互的方法和智能眼鏡設備1通過多個輸入模塊獲取多通道的輸入信息,并對所述輸入信息進行綜合邏輯分析后確定操作對象、操作動作和操作動作的操作元素,以生成操作命令,再基于操作命令執(zhí)行相應操作,從而實時地將現(xiàn)實場景信息、虛擬場景信息、手勢信息、聲音信息、觸控信息、傳感信息融合處理,使用戶更接近自然語言的交互方式,從而提高提供用戶的交互體驗。

進一步地,通過獲取用戶待設定操作命令的相關信息,基于所述待設定操作命令的相關信息更新所述操作命令,使用戶可以自行定義交互操作,提高用戶使用的靈活性。

進一步地,所述智能眼鏡設備1通過設置物理分離的分體控制裝置,并以有線或無線的方式通信連接,將所述智能眼鏡設備1的處理核心業(yè)務邏輯交由分體控制裝置,能夠降低智能眼鏡設備1本身體積和重量,并避免智能眼鏡設備1過度散熱導致用戶使用不適。

需要注意的是,本發(fā)明可在軟件和/或軟件與硬件的組合體中被實施,例如,可采用專用集成電路(asic)、通用目的計算機或任何其他類似硬件設備來實現(xiàn)。在一個實施例中,本發(fā)明的軟件程序可以通過處理器執(zhí)行以實現(xiàn)上文所述步驟或功能。同樣地,本發(fā)明的軟件程序(包括相關的數(shù)據結構)可以被存儲到計算機可讀記錄介質中,例如,ram存儲器,磁或光驅動器或軟磁盤及類似設備。另外,本發(fā)明的一些步驟或功能可采用硬件來實現(xiàn),例如,作為與處理器配合從而執(zhí)行各個步驟或功能的電路。

另外,本發(fā)明的一部分可被應用為計算機程序產品,例如計算機程 序指令,當其被計算機執(zhí)行時,通過該計算機的操作,可以調用或提供根據本發(fā)明的方法和/或技術方案。而調用本發(fā)明的方法的程序指令,可能被存儲在固定的或可移動的記錄介質中,和/或通過廣播或其他信號承載媒體中的數(shù)據流而被傳輸,和/或被存儲在根據所述程序指令運行的計算機設備的工作存儲器中。在此,根據本發(fā)明的一個實施例包括一個裝置,該裝置包括用于存儲計算機程序指令的存儲器和用于執(zhí)行程序指令的處理器,其中,當該計算機程序指令被該處理器執(zhí)行時,觸發(fā)該裝置運行基于前述根據本發(fā)明的多個實施例的方法和/或技術方案。

對于本領域技術人員而言,顯然本發(fā)明不限于上述示范性實施例的細節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論從哪一點來看,均應將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權利要求而不是上述說明限定,因此旨在將落在權利要求的等同要件的含義和范圍內的所有變化涵括在本發(fā)明內。不應將權利要求中的任何附圖標記視為限制所涉及的權利要求。此外,顯然“包括”一詞不排除其他單元或步驟,單數(shù)不排除復數(shù)。裝置權利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1