亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于視覺詞袋模型的室內(nèi)場景認知方法與流程

文檔序號:12124178閱讀:452來源:國知局

本發(fā)明屬于移動機器人環(huán)境感知領(lǐng)域,特別涉及一種基于視覺詞袋模型的室內(nèi)場景認知方法。



背景技術(shù):

通常情況下,柵格地圖可滿足機器人對導(dǎo)航、避障任務(wù)的底層需求,然而對于完成諸如人機交互和任務(wù)規(guī)劃一類的高層任務(wù),還需要獲取關(guān)于場景認知的語義信息,創(chuàng)建面向認知的語義地圖。移動機器人在室內(nèi)場景中移動,不知曉自身所在位置屬于客廳、廚房抑或是臥室,則不能完成類似于為人類到廚房的冰箱里取瓶礦泉水這樣的高智能任務(wù)了。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的在于提出一種基于視覺詞袋模型的室內(nèi)場景認知方法。

本發(fā)明的目的是這樣實現(xiàn)的:

本發(fā)明包括離線和在線兩個部分,具體步驟如下:

離線部分:

(1)依據(jù)應(yīng)用需求確定場景類別,機器人利用搭載的RGB-D傳感器掃描各個場景,獲得足夠多的場景圖像組成圖像訓(xùn)練集;

(2)利用ORB算法生成圖像訓(xùn)練集中每一幅圖像的ORB 256維描述符,每幅圖像通常包含成百上千個ORB矢量;

(3)利用K-means聚類算法對圖像訓(xùn)練集中ORB特征點進行訓(xùn)練,生成K個類心組成視覺詞匯,構(gòu)造出視覺詞典;

(4)針對所有圖像的ORB特征,計算每一個視覺單詞出現(xiàn)的頻率和逆頻率,通過TF-IDF對頻數(shù)表添加權(quán)重,生成加權(quán)的訓(xùn)練集各圖像的視覺詞袋模型;保存視覺詞典和訓(xùn)練集視覺詞袋模型就獲得了新形式的離線語義地圖;

在線部分:

(5)機器人接收到當(dāng)前場景類別查詢指令,系統(tǒng)初始化,準(zhǔn)備進行場景查詢;

(6)機器人利用其搭載的攝像機獲取當(dāng)前場景的RGB圖像,并采用ORB算法檢測并提取特征點集;

(7)查詢語義地圖數(shù)據(jù)庫,比對視覺詞典,生成當(dāng)前場景圖像的加權(quán)視覺詞袋模型;

(8)采用KNN分類器將當(dāng)前場景圖像的視覺詞袋模型與語義地圖數(shù)據(jù)庫訓(xùn)練集視覺詞袋模型對比,最終確定當(dāng)前場景類別,并返回查詢結(jié)果。

所述的步驟(3)包括以下幾個子步驟:

(3.1)在特征點集X中隨機挑選k個樣本點作為初始聚類中心

(3.2)計算特征點集中每個特征點xi(i=1,2,…,n)到所有聚類中心的距離且將特征點xi劃分到與其距離最近的類mj中;

(3.3)計算各個類的聚類中心j=1,2,…,k,其中nj為劃分到類簇mj中特征點數(shù)目,計算目標(biāo)函數(shù)Wn(t),并與前一次計算結(jié)果作差,如果Wn(t)-Wn(t-1)<0,繼續(xù)迭代步驟(3.2)、(3.3);否則,退出迭代,計算結(jié)束;將獲得的k個聚類中心作為視覺單詞,將所有視覺單詞列表存儲獲得視覺詞典;

所述步驟(3)視覺詞典單詞容量參數(shù)K設(shè)為900。

所述步驟(8)中KNN分類器參數(shù)K設(shè)置為1。

本發(fā)明的有益效果在于:

本發(fā)明采用ORB算法完成特征提取與匹配的圖像預(yù)處理過程,算法快速性得到保證;采用KNN分類器算法提高了場景識別率,可滿足移動機器人室內(nèi)常見場景查詢應(yīng)用需求。

附圖說明

圖1為基于視覺詞袋模型的室內(nèi)場景認知方法算法流程示意圖。

具體實施方式

下面結(jié)合附圖對本發(fā)明做進一步描述。

本發(fā)明公開了一種基于視覺詞袋模型的室內(nèi)場景認知方法,本發(fā)明方法包括離線地圖生成和在線地圖查詢兩部分。離線地圖生成部分包括:掃描場景獲取場景訓(xùn)練集;ORB特征檢測與描述;K均值聚類提取類心構(gòu)造視覺詞典;TF-IDF技術(shù)添加權(quán)重生成訓(xùn)練集視覺詞袋模型數(shù)據(jù)庫。在線地圖查詢部分包括:接收場景查詢指令;獲取當(dāng)前場景RGB圖像并提取ORB特征;查詢地圖數(shù)據(jù)庫視覺詞典,生成當(dāng)前場景圖像視覺詞袋模型;KNN分類器對比地圖數(shù)據(jù)庫訓(xùn)練集與當(dāng)前場景詞袋模型,判定當(dāng)前場景類別。通過上述方式,本發(fā)明能夠快速準(zhǔn)確地幫助移動機器人完成室內(nèi)場景認知,從而更好地同人類交互。

為解決上述問題,本發(fā)明提出基于視覺詞袋模型的室內(nèi)場景認知方法,從而建立室內(nèi)常見場景視覺詞典,建立一種面向室內(nèi)場景認知的新的語義地圖形式,然后用于機器人室內(nèi)場景類別查詢。

為達到上述目的,本發(fā)明的技術(shù)方案包含以下要點:

離線部分:

步驟1.掃描場景獲取場景訓(xùn)練集;

步驟2.ORB特征檢測與描述;

步驟3.K均值聚類提取類心構(gòu)造視覺詞典;

步驟4.TF-IDF技術(shù)添加權(quán)重生成訓(xùn)練集視覺詞袋模型數(shù)據(jù)庫;

在線部分:

步驟1.獲取當(dāng)前場景RGB圖像并提取ORB特征;

步驟2.查詢地圖數(shù)據(jù)庫視覺詞典生成當(dāng)前場景圖像視覺詞袋模型;

步驟3.KNN分類器對比地圖數(shù)據(jù)庫訓(xùn)練集與當(dāng)前場景詞袋模型,判定當(dāng)前場景類別。

基于視覺詞袋模型的室內(nèi)場景認知方法算法流程如圖1所示,可分為離線和在線兩個部分,具體實施步驟如下:

(1)離線地圖生成:

步驟1.依據(jù)應(yīng)用需求確定場景類別,機器人利用搭載的RGB-D傳感器掃描各個場景,獲得足夠多的場景圖像組成圖像訓(xùn)練集。

步驟2.利用ORB算法生成圖像訓(xùn)練集中每一幅圖像的ORB 256維描述符,每幅圖像通常包含成百上千個ORB矢量。

步驟3.利用K-means聚類算法對圖像訓(xùn)練集中ORB特征點進行訓(xùn)練,生成K個類心組成視覺詞匯,構(gòu)造出視覺詞典。對于室內(nèi)10個左右的場景,取K=900可獲得約80%的場景識準(zhǔn)率,且算法具備不錯的快速性,所以本發(fā)明參數(shù)K選取900。

K-means算法是一種無監(jiān)督自適應(yīng)聚類分析算法,具有效率高、適合大規(guī)模數(shù)據(jù)處理的優(yōu)點。其核心思想是在特征點集X={x1,x2,…,xn}中得到k個聚類中心{m1,m2,…,mk},滿足特征點集合中的特征點到所屬類心的的距離平方和最小,其目標(biāo)函數(shù)表達式為:

步驟3具體包括以下幾個子步驟:

步驟3.1.在特征點集X中隨機挑選k個樣本點作為初始聚類中心

步驟3.2.計算特征點集中每個特征點xi(i=1,2,…,n)到所有聚類中心的距離且將特征點xi劃分到與其距離最近的類mj中;

步驟3.3.計算各個類的聚類中心j=1,2,…,k,其中nj為劃分到類簇mj中特征點數(shù)目,據(jù)式(1)計算目標(biāo)函數(shù)Wn(t),并與前一次計算結(jié)果作差,如果Wn(t)-Wn(t-1)<0,繼續(xù)迭代步驟3.2、3.3;否則,退出迭代,計算結(jié)束。將獲得的k個聚類中心作為視覺單詞,將所有視覺單詞列表存儲獲得視覺詞典。

步驟4.針對所有圖像的ORB特征,計算每一個視覺單詞出現(xiàn)的頻率(TF)和逆頻率(IDF),通過TF-IDF對頻數(shù)表添加權(quán)重,生成加權(quán)的訓(xùn)練集各圖像的視覺詞袋模型。保存視覺詞典和訓(xùn)練集視覺詞袋模型就獲得了新形式的離線語義地圖。

在獲得視覺詞典后,就可利用視覺詞典經(jīng)統(tǒng)計得到圖像的視覺單詞頻數(shù)直方圖描述。對于每一幅訓(xùn)練圖像和測試圖像,將提取獲得的眾多底層特征與視覺詞典中的單詞進行匹配,找到最接近的一個代替描述,最后統(tǒng)計各個單詞出現(xiàn)的次數(shù),就獲得了圖像基于頻數(shù)直方圖的視覺詞袋表示。

假設(shè)視覺詞典為{m1,m2,…,mk},采用最近鄰算法計算ORB底層特征與每個視覺單詞之間的歐式距離,從而將特征vi用離他最近的視覺單詞代替描述,如式(2)所示。

(2)在線地圖查詢:

步驟1.機器人接收到當(dāng)前場景類別查詢指令,系統(tǒng)初始化,準(zhǔn)備進行場景查詢。

步驟2.機器人利用其搭載的攝像機獲取當(dāng)前場景的RGB圖像,并采用ORB算法檢測并提取特征點集。

步驟3.查詢語義地圖數(shù)據(jù)庫,比對視覺詞典,生成當(dāng)前場景圖像的加權(quán)視覺詞袋模型。

步驟4.采用KNN分類器將當(dāng)前場景圖像的視覺詞袋模型與語義地圖數(shù)據(jù)庫訓(xùn)練集視覺詞袋模型對比,最終確定當(dāng)前場景類別,并返回查詢結(jié)果。

KNN算法的基本思想可表述為:計算待定當(dāng)前場景視覺詞袋模型與訓(xùn)練集各視覺詞袋的相似度,找出最相似的K各樣本,根據(jù)這K個樣本的類別投票結(jié)果確定當(dāng)前場景視覺的類別。這里的相似性度量采用歐式距離,兩個n維向量a=(x11,x12,…,x1n)和b=(x21,x22,…,x2n)的歐式距離為:

用向量運算的形式表達,則:

經(jīng)實驗,KNN參數(shù)K選為1或3具有較高的場景識準(zhǔn)率,本發(fā)明KNN參數(shù)K選1。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1