亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于智能機(jī)器人的主動(dòng)交互方法和系統(tǒng)與流程

文檔序號:12121994閱讀:443來源:國知局
用于智能機(jī)器人的主動(dòng)交互方法和系統(tǒng)與流程

本發(fā)明涉及智能機(jī)器人領(lǐng)域,具體地說,涉及一種用于智能機(jī)器人的主動(dòng)交互方法和系統(tǒng)。



背景技術(shù):

目前,在人機(jī)交互過程中,通常都是用戶主動(dòng)發(fā)起交互,機(jī)器人根據(jù)用戶輸入的多模態(tài)數(shù)據(jù)所代表的含義回答問題或者進(jìn)行一些動(dòng)作的輸出。有的時(shí)候,用戶處于情緒低落或者其他情況,而并未進(jìn)行任何輸入,例如長時(shí)間的沒有發(fā)出任何聲音或者動(dòng)作。在這種情況下,現(xiàn)有的人機(jī)交互技術(shù)僅僅是簡單的等待用戶的進(jìn)一步輸入??梢姡F(xiàn)有智能機(jī)器人的交互靈活度較差,類人性較低,帶給用戶的體驗(yàn)效果也較差。

因此,需要一種能夠進(jìn)行人機(jī)主動(dòng)交互的技術(shù)方案。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于解決現(xiàn)有技術(shù)中不能進(jìn)行人機(jī)主動(dòng)交互的技術(shù)問題,提供了一種用于智能機(jī)器人的主動(dòng)交互方法。所述方法包括以下步驟:

圖像捕獲步驟,捕獲當(dāng)前場景中的圖像,以得到圖像數(shù)據(jù);

視覺語義解析步驟,通過視覺語義模型對所述圖像數(shù)據(jù)進(jìn)行視覺語義的識別;

發(fā)起主動(dòng)交互判斷步驟,判斷針對圖像數(shù)據(jù)所識別出的視覺語義是否符合發(fā)起主動(dòng)交互的條件,并在符合發(fā)起主動(dòng)交互的情況下,主動(dòng)發(fā)起交互。

根據(jù)本發(fā)明的用于智能機(jī)器人的主動(dòng)交互方法,優(yōu)選的是,所述視覺語義模型是通過如下步驟建立的:

建立初始模型;

針對輸入的圖像標(biāo)注出視覺語義訓(xùn)練數(shù)據(jù);

基于深度學(xué)習(xí)技術(shù)訓(xùn)練所述初始模型。

根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于智能機(jī)器人的主動(dòng)交互方法,優(yōu)選的是,在判斷發(fā)起主動(dòng)交互步驟中,判斷針對圖像數(shù)據(jù)所識別出的當(dāng)前視覺語義是否為特定時(shí)間內(nèi)的特定事件。

根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于智能機(jī)器人的主動(dòng)交互方法,優(yōu)選的是,在判斷發(fā)起主動(dòng)交互步驟中,判斷針對圖像數(shù)據(jù)所識別出的當(dāng)前視覺語義是否為用戶處于特定的狀態(tài)。

根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于智能機(jī)器人的主動(dòng)交互方法,優(yōu)選的是,在判斷發(fā)起主動(dòng)交互步驟中,判斷針對圖像數(shù)據(jù)所識別出的當(dāng)前視覺語義是否為特定的場景。

根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種用于智能機(jī)器人的主動(dòng)交互系統(tǒng),所述系統(tǒng)包括以下單元:

圖像捕獲單元,其用以使機(jī)器人捕獲當(dāng)前場景中的圖像,以得到圖像數(shù)據(jù);

視覺語義解析單元,其用以通過視覺語義模型對所述圖像數(shù)據(jù)進(jìn)行視覺語義的識別;

發(fā)起主動(dòng)交互判斷單元,其用以判斷針對圖像數(shù)據(jù)所識別出的視覺語義是否符合發(fā)起主動(dòng)交互的條件,并在符合發(fā)起主動(dòng)交互的情況下,由機(jī)器人主動(dòng)發(fā)起交互。

根據(jù)本發(fā)明的用于智能機(jī)器人的主動(dòng)交互系統(tǒng),優(yōu)選的是,所述視覺語義模型是通過如下步驟建立的:

建立初始模型;

針對輸入的圖像標(biāo)注出視覺語義訓(xùn)練數(shù)據(jù);

基于深度學(xué)習(xí)技術(shù)訓(xùn)練所述初始模型。

根據(jù)本發(fā)明的用于智能機(jī)器人的主動(dòng)交互系統(tǒng),優(yōu)選的是,在發(fā)起主動(dòng)交互判斷單元中,還包括用以判斷針對圖像數(shù)據(jù)所識別出的當(dāng)前視覺語義是否為特定時(shí)間內(nèi)的特定事件的單元。

根據(jù)本發(fā)明的用于智能機(jī)器人的主動(dòng)交互系統(tǒng),優(yōu)選的是,在發(fā)起主動(dòng)交互判斷單元中,還包括用以判斷針對圖像數(shù)據(jù)所識別出的當(dāng)前視覺語義是否為用戶處于特定的狀態(tài)的單元。

根據(jù)本發(fā)明的用于智能機(jī)器人的主動(dòng)交互系統(tǒng),優(yōu)選的是,在發(fā)起主動(dòng)交互判斷單元中,還包括用以判斷針對圖像數(shù)據(jù)所識別出的當(dāng)前視覺語義是否為特定的場景的單元。

本發(fā)明的有益之處在于,由于本發(fā)明的用于智能機(jī)器人的主動(dòng)交互方法和系統(tǒng)可以根據(jù)視覺語義的分析來判斷當(dāng)前是否需要主動(dòng)交互,使得智能機(jī)器人的類人化程度更高,與人類的交互更靈活。

本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。

附圖說明

附圖用來提供對本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實(shí)施例共同用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:

圖1為根據(jù)本發(fā)明的一個(gè)實(shí)施例的面向智能機(jī)器人的主動(dòng)交互方法的流程圖;

圖2顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的面向智能機(jī)器人的主動(dòng)交互方法中進(jìn)行視覺語義建模的方法流程圖;

圖3顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的面向智能機(jī)器人的主動(dòng)交互方法中判斷是否進(jìn)行主動(dòng)交互的方法流程圖;以及

圖4顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的面向智能機(jī)器人的主動(dòng)交互系統(tǒng)的結(jié)構(gòu)框圖。

具體實(shí)施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,以下結(jié)合附圖對本發(fā)明實(shí)施例作進(jìn)一步地詳細(xì)說明。

如圖1所示,其中顯示了根據(jù)本發(fā)明實(shí)施例的面向智能機(jī)器人的主動(dòng)交互方法的流程圖。根據(jù)本發(fā)明的主動(dòng)交互方法開始于步驟S101。在步驟S101中,執(zhí)行圖像捕獲操作。具體地,智能能機(jī)器人可捕獲當(dāng)前場景中的圖像,并通過圖像處理得到相應(yīng)的圖像數(shù)據(jù)。例如,圖像數(shù)據(jù)中包括當(dāng)前用戶的姿態(tài)、表情以及用戶周圍的環(huán)境等信息。

針對所捕獲的當(dāng)前場景圖像,其可以進(jìn)行進(jìn)一步的分類。例如針對人體圖像,需要識別面部特征、表情特征等等。而對于物體圖像,需要識別出是屬于哪一類物體如文具、玩具、寵物等等。對于背景圖像,需要識別出環(huán)境特征、天氣、地理位置等等。而對于捕獲的一系列動(dòng)作,需要識別出人發(fā)出這些動(dòng)作與語音配合的意圖特征等。當(dāng)然,場景圖像中還包括了其他特征,這里不一一贅述。

在捕獲當(dāng)前圖像的時(shí)候,作為對圖像識別的補(bǔ)充,機(jī)器人系統(tǒng)還可以監(jiān)聽聲音,從而在進(jìn)行圖像識別的同時(shí)對監(jiān)聽到的與當(dāng)前場景圖像對應(yīng)的語音進(jìn)行語音特征識別,進(jìn)一步還可以通過語音識別系統(tǒng)將監(jiān)聽到的語音按照語義、聲調(diào)、語氣等進(jìn)行識別。也就是說,語音特征的識別還包括語義識別、語調(diào)識別、語氣識別等等。語音數(shù)據(jù)的輸入可以幫助系統(tǒng)進(jìn)行更準(zhǔn)確的視覺語義識別。

接下來,在步驟S102中,進(jìn)行視覺語義解析。智能機(jī)器人可通過已經(jīng)得到訓(xùn)練的視覺語義模型對圖像數(shù)據(jù)進(jìn)行視覺語義的識別。視覺語義指的是機(jī)器人通過圖像識別相關(guān)技術(shù),識別出相關(guān)的人、人相關(guān)特征、動(dòng)作、手勢、物體等等以及他們之間的關(guān)系,并推斷出整個(gè)圖像的語義。例如,機(jī)器人通過圖像識別相關(guān)技術(shù)識別出相關(guān)的人、人的相關(guān)特征、動(dòng)作、手勢、物體特征等,并通過推斷過程來推測所捕獲的圖像所代表的語義或者含義。

根據(jù)本發(fā)明的視覺語義模型的建立和訓(xùn)練一般包括如下步驟,如圖2所示。

在步驟S201中,系統(tǒng)建立初始模型。機(jī)器人操作系統(tǒng)內(nèi)部在開始建立視覺語義初始模型時(shí),先根據(jù)最基本的一些圖像樣本數(shù)據(jù)給出對應(yīng)的語義關(guān)聯(lián)。隨后,例如通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法對隨后輸入的圖像進(jìn)行語義關(guān)聯(lián)。具體說,可以在步驟S202中,針對輸入的圖像數(shù)據(jù)標(biāo)注出視覺語義訓(xùn)練數(shù)據(jù)。例如,針對捕獲的圖像為用戶的表情比較沮喪,并且發(fā)出嘆息聲。這時(shí),系統(tǒng)會(huì)對此類圖片數(shù)據(jù)進(jìn)行標(biāo)注,用“沮喪”這樣的文本數(shù)據(jù)或者其他能夠代表此類感情的靜態(tài)圖片或圖標(biāo)或其他標(biāo)記來對該圖像資料進(jìn)行標(biāo)注。

這里可以通過語音識別對圖像識別語義進(jìn)行輔助,實(shí)際應(yīng)用中,進(jìn)行視覺語義識別時(shí)也可以不需要進(jìn)行語音識別。在這種情況下,即使用戶沒有發(fā)出其他要進(jìn)行交互的指令時(shí),機(jī)器人操作系統(tǒng)也能識別出當(dāng)前用戶的情感狀態(tài),從而在合適的時(shí)候發(fā)起主動(dòng)交互。

在步驟S203中,基于深度學(xué)習(xí)技術(shù)并結(jié)合所標(biāo)注的視覺語義訓(xùn)練數(shù)據(jù)來訓(xùn)練所建立的初始模型。由于前述的視覺語義模型是初始建立的,它們僅代表以后進(jìn)行學(xué)習(xí)訓(xùn)練的基本構(gòu)架,根據(jù)初始模型的結(jié)構(gòu),系統(tǒng)可以通過機(jī)器人的深度學(xué)習(xí)過程,不斷地豐富模型的內(nèi)容。最后所訓(xùn)練得到的視覺語義模型可以解釋圖像、聲音以及輸入的文本。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像,聲音和文本。

為了提高視覺識別的準(zhǔn)確性,視覺語義模型訓(xùn)練中,可采用卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行視覺特征的提取和分析??苫诰矸e神經(jīng)網(wǎng)絡(luò)算法對所捕獲的當(dāng)前場景圖像進(jìn)行視覺特征識別。

卷積網(wǎng)絡(luò)最初是受視覺神經(jīng)機(jī)制的啟發(fā)而設(shè)計(jì)的,是為識別二維形狀而設(shè)計(jì)的一個(gè)多層感知器。由于這種網(wǎng)絡(luò)結(jié)構(gòu)對平移、比例縮放、傾斜或者其它形式的變形具有高度不變性,因此,在圖像識別技術(shù)領(lǐng)域,卷積網(wǎng)絡(luò)得到廣泛應(yīng)用。

卷積神經(jīng)網(wǎng)絡(luò)在模式分類領(lǐng)域,由于該網(wǎng)絡(luò)避免了對圖像的復(fù)雜前期預(yù)處理,可以直接輸入原始圖像,因而得到了更為廣泛的應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu)在語音識別和圖像處理方面有著獨(dú)特的優(yōu)越性,其布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點(diǎn)避免了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜度。

本發(fā)明對所采集到的圖像信息進(jìn)行特征識別,例如識別出場景圖像中針對人物圖像的身份特征、物體圖像的主題特征、人發(fā)出一系列動(dòng)作的意圖特征以及背景圖像中的其它特征等,同時(shí)對模型中的數(shù)據(jù)進(jìn)行標(biāo)注,從而訓(xùn)練成熟的視覺語義模型。

在步驟S103中,對是否要發(fā)起主動(dòng)交互操作進(jìn)行判斷。根據(jù)上述通過模型識別出的視覺語義來判斷當(dāng)前是否符合發(fā)起主動(dòng)交互的條件。觸發(fā)主動(dòng)交互的條件包括以下幾種情況。如圖3所示,判斷針對圖像數(shù)據(jù)所識別出的當(dāng)前視覺語義是否為特定時(shí)間內(nèi)的特定事件(S301)。例如,在早上8點(diǎn)鐘要起床的時(shí)候、晚上用戶下班回家或者周末時(shí)準(zhǔn)備健身等特定事件發(fā)生時(shí),系統(tǒng)觸發(fā)主動(dòng)交互操作。

第二種觸發(fā)主動(dòng)交互的條件是判斷針對圖像數(shù)據(jù)所識別出的當(dāng)前視覺語義是否為用戶處于特定的狀態(tài)(S302)。例如,在長達(dá)幾分鐘的時(shí)間里,系統(tǒng)所捕獲的圖像經(jīng)過視覺語義識別的結(jié)果均是“XXX現(xiàn)在很沮喪、悲傷或者無聊”。這時(shí),系統(tǒng)會(huì)觸發(fā)主動(dòng)交互,例如多模態(tài)輸出語音、動(dòng)作等數(shù)據(jù),來安撫交互對象,并引導(dǎo)對象進(jìn)行交談。或者,根據(jù)交互的結(jié)果,主動(dòng)播放音樂等。

第三種觸發(fā)主動(dòng)交互的條件是判斷針對圖像數(shù)據(jù)所識別出的當(dāng)前視覺語義是否為特定的場景。例如,主動(dòng)抓拍過程中,如果視覺語義識別的場景為機(jī)器人認(rèn)為比較美的景色或者用戶的動(dòng)作表情被認(rèn)為是難得一見的,則主動(dòng)進(jìn)行交互,發(fā)出語音,同時(shí)啟動(dòng)照相機(jī)的拍照功能。

最后,在步驟S104中,當(dāng)上述任何一種觸發(fā)條件滿足時(shí),機(jī)器人便會(huì)進(jìn)行主動(dòng)交互。在發(fā)起主動(dòng)交互的過程中,機(jī)器人可以多模態(tài)的方式進(jìn)行輸出,不限于語音,還包括動(dòng)作、音頻等的多模態(tài)輸出方式。

由于本發(fā)明的方法描述的是在計(jì)算機(jī)系統(tǒng)中實(shí)現(xiàn)的。該計(jì)算機(jī)系統(tǒng)例如可以設(shè)置在機(jī)器人的控制核心處理器中。例如,本文所述的方法可以實(shí)現(xiàn)為能以控制邏輯來執(zhí)行的軟件,其由機(jī)器人控制系統(tǒng)中的CPU來執(zhí)行。本文所述的功能可以實(shí)現(xiàn)為存儲在非暫時(shí)性有形計(jì)算機(jī)可讀介質(zhì)中的程序指令集合。當(dāng)以這種方式實(shí)現(xiàn)時(shí),該計(jì)算機(jī)程序包括一組指令,當(dāng)該組指令由計(jì)算機(jī)運(yùn)行時(shí)其促使計(jì)算機(jī)執(zhí)行能實(shí)施上述功能的方法??删幊踢壿嬁梢詴簳r(shí)或永久地安裝在非暫時(shí)性有形計(jì)算機(jī)可讀介質(zhì)中,例如只讀存儲器芯片、計(jì)算機(jī)存儲器、磁盤或其他存儲介質(zhì)。除了以軟件來實(shí)現(xiàn)之外,本文所述的邏輯可利用分立部件、集成電路、與可編程邏輯設(shè)備(諸如,現(xiàn)場可編程門陣列(FPGA)或微處理器)結(jié)合使用的可編程邏輯,或者包括它們?nèi)我饨M合的任何其他設(shè)備來體現(xiàn)。所有此類實(shí)施例旨在落入本發(fā)明的范圍之內(nèi)。

根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種用于智能機(jī)器人的主動(dòng)交互系統(tǒng)400。該系統(tǒng)包括以下單元:

圖像捕獲單元401,其用以使機(jī)器人捕獲當(dāng)前場景中的圖像,以得到圖像數(shù)據(jù);

視覺語義解析單元402,其用以通過視覺語義模型對所述圖像數(shù)據(jù)進(jìn)行視覺語義的識別;

發(fā)起主動(dòng)交互判斷單元403,其用以判斷針對圖像數(shù)據(jù)所識別出的視覺語義是否符合發(fā)起主動(dòng)交互的條件,并在符合發(fā)起主動(dòng)交互的情況下,由機(jī)器人主動(dòng)發(fā)起交互。

根據(jù)本發(fā)明的用于智能機(jī)器人的主動(dòng)交互系統(tǒng)400,優(yōu)選的是,所述視覺語義模型是通過如下步驟建立的:

建立初始模型;

針對輸入的圖像標(biāo)注出視覺語義訓(xùn)練數(shù)據(jù);

基于深度學(xué)習(xí)技術(shù)訓(xùn)練所述初始模型。

根據(jù)本發(fā)明的用于智能機(jī)器人的主動(dòng)交互系統(tǒng),優(yōu)選的是,在發(fā)起主動(dòng)交互判斷單元中,還包括用以判斷針對圖像數(shù)據(jù)所識別出的當(dāng)前視覺語義是否為特定時(shí)間內(nèi)的特定事件的單元404。

根據(jù)本發(fā)明的用于智能機(jī)器人的主動(dòng)交互系統(tǒng),優(yōu)選的是,在發(fā)起主動(dòng)交互判斷單元中,還包括用以判斷針對圖像數(shù)據(jù)所識別出的當(dāng)前視覺語義是否為用戶處于特定的狀態(tài)的單元405。

根據(jù)本發(fā)明的用于智能機(jī)器人的主動(dòng)交互系統(tǒng),優(yōu)選的是,在發(fā)起主動(dòng)交互判斷單元中,還包括用以判斷針對圖像數(shù)據(jù)所識別出的當(dāng)前視覺語義是否為特定的場景的單元406。

應(yīng)該理解的是,本發(fā)明所公開的實(shí)施例不限于這里所公開的特定結(jié)構(gòu)、處理步驟或材料,而應(yīng)當(dāng)延伸到相關(guān)領(lǐng)域的普通技術(shù)人員所理解的這些特征的等同替代。還應(yīng)當(dāng)理解的是,在此使用的術(shù)語僅用于描述特定實(shí)施例的目的,而并不意味著限制。

說明書中提到的“一個(gè)實(shí)施例”或“實(shí)施例”意指結(jié)合實(shí)施例描述的特定特征、結(jié)構(gòu)或特性包括在本發(fā)明的至少一個(gè)實(shí)施例中。因此,說明書通篇各個(gè)地方出現(xiàn)的短語“一個(gè)實(shí)施例”或“實(shí)施例”并不一定均指同一個(gè)實(shí)施例。

雖然本發(fā)明所公開的實(shí)施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實(shí)施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬技術(shù)領(lǐng)域內(nèi)的技術(shù)人員,在不脫離本發(fā)明所公開的精神和范圍的前提下,可以在實(shí)施的形式上及細(xì)節(jié)上作任何的修改與變化,但本發(fā)明的專利保護(hù)范圍,仍須以所附的權(quán)利要求書所界定的范圍為準(zhǔn)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1