亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于人機交互的圖像高級語義解析的方法

文檔序號:6639252閱讀:218來源:國知局
一種基于人機交互的圖像高級語義解析的方法
【專利摘要】本發(fā)明實施例公開了一種基于人機交互的圖像高級語義解析的方法,包括:基于便攜式掃描設備掃描源圖像;對源圖像中的目標進行識別;將源圖像中的內(nèi)容進行過濾和解析,并提煉出有效的知識;組織語義將圖像內(nèi)容用語音形式傳遞給用戶。實施本發(fā)明實施例針對視力障礙群體和自學能力較弱的群體,只需憑借簡單的掃描工作,無需借助視覺系統(tǒng)通過計算機描述圖像,能夠幫助這樣的弱勢群體體會另一個不同的世界,也可以作為娛樂生活的一部分。操作簡單,移植性良好。
【專利說明】一種基于人機交互的圖像高級語義解析的方法

【技術領域】
[0001] 本發(fā)明涉及人機交互【技術領域】,尤其涉一種基于人機交互的圖像高級語義解析的 方法。

【背景技術】
[0002] 隨著互聯(lián)網(wǎng)的普及,存儲技術、多媒體技術和數(shù)據(jù)庫技術快速發(fā)展,人們在圖像應 用上所提出的要求日益增長。物理學界認為,人類特有的三種信息是語言、符號和圖像,信 息的傳播在很大程度上依賴于視覺,至少有80%的外界信息是通過視覺感知獲得的,視覺 是人和動物最重要的感覺。一幅圖像中包含的語義信息相當豐富,但是不是任何群體都有 正常的視覺功能或有良好的理解能力,所以如何借助計算機自動解析圖像是一項有意義且 具有挑戰(zhàn)的任務。而最終得到準確的語義解析與表達實現(xiàn)過程中需要借助計算機自動對圖 像進行標注。
[0003] 圖像語義的研宄主要集中在基于圖像各層語義的分類及檢索、低層語義特征 的提取、中層對象語義的描述等方面。進入20世紀90年代后,基于內(nèi)容的圖像檢索 (Content-BasedImageRetrieval,CBIR)成為一個研宄熱點,也成為多媒體數(shù)據(jù)庫、數(shù)字 圖書館等重大研宄項目中的關鍵技術。CBIR從一定程度上解決了基于文本的圖像檢索的 局限性,它通過計算圖像視覺特征(如顏色、紋理、形狀等)間的相似度來匹配圖像,以及運 用可視化的查詢方式來代替基于文本的圖像檢索。實現(xiàn)了使用顏色、紋理、形狀及區(qū)域等圖 像視覺內(nèi)容特征的檢索和"以圖找圖"的檢索模式的飛躍?;趦?nèi)容的圖像檢索融合了圖 像理解、模式識別信息技術等領域知識,是多種高新技術的合成。一些研宄者重點對圖像底 層視覺特征提取及表示進行研宄,并取得了一定的成果。然而,在實際應用中,傳統(tǒng)的CBIR 系統(tǒng)的檢索結果往往難以令人滿意,不能滿足人們按照語義檢索圖像的需求,這主要因為 用戶往往對所需的圖像只存在有關圖像描述的對象、事件以及表達的情感等含義上的一些 高層概念(如度假、城市、肖像等),用戶需要的是圖像語義的查詢,而不是圖像的底層視覺 特征。這里提到的圖像的含義就是圖像的高層語義特征,它包含了人們對圖像內(nèi)容的理解, 這種理解要根據(jù)人的認知知識來判斷,并不能夠直接從圖像的底層特征獲得。這就產(chǎn)生了 基于內(nèi)容的圖像檢索系統(tǒng)中存在的"語義鴻溝"問題,即人對圖像內(nèi)容的理解與計算機自動 提取的圖像視覺特征間存在的巨大的差異。進入21世紀,圖像檢索圍繞圖像語義(Image Semantic)這一熱點展開,其目的是使計算機檢索圖像的能力達到人的理解水平,實現(xiàn)更為 貼近用戶理解能力的自然而簡潔的查詢方式,并提高圖像檢索的精度?;谡Z義的圖像檢 索(Semantic-BasedImageRetrieval,SBIR)立足于圖像的語義特征,研宄如何將圖像的 底層視覺特征映射到圖像高層語義,以及如何描述這些高層語義。隨著2001年9月"多媒體 內(nèi)容描述接口"MPEG-7標準的推出和逐漸完善,數(shù)字化圖像將具有統(tǒng)一的視覺特征描述參 數(shù)和表達復雜語義關系的描述定義語言,這將有利于基于語義的圖像檢索技術取得突破性 進展,并走向?qū)嵱没屯ㄓ没?。圖像語義自動標注是基于語義的圖像檢索的關鍵環(huán)節(jié),已經(jīng) 成為圖像檢索中的研宄熱點。圖像語義的自動標注就是為圖像添加關鍵字來表示圖像的語 義內(nèi)容,能夠?qū)D像的視覺特征轉(zhuǎn)化為圖像的標注字信息,繼承了關鍵字檢索的高效率,也 克服了手工標注費時費力的缺點。算法的步驟一般有兩個方面:首先對標注了同一語義的 所有圖像底層特征組成的集合進行統(tǒng)計學習,得到該語義類的訓練模型;其次對于一幅待 標注的圖像,同樣提取圖像底層特征,根據(jù)已求得的語義類的訓練模型,獲得屬于該圖像語 義的概率,因而可以求得在待標注的圖像中,所有語義概念或者說文本關鍵字出現(xiàn)的概率。 對圖像的語義概率按序排列,選擇概率最高的若干個關鍵詞作為此圖像的語義標簽。圖像 語義的自動標注作為圖像檢索領域研宄的熱點,具有廣泛的應用前景,主要包括醫(yī)學圖像 分類、數(shù)字化圖書館的建立和管理、數(shù)碼照片的檢索和管理、視頻檢索、衛(wèi)星遙感圖像處理 等方面。
[0004] 在圖像語義描述中,圖像內(nèi)容描述具有"像素-區(qū)域-目標-場景"的層次 包含關系,而語義描述的本質(zhì)就是采用合理的構詞方式進行詞匯編碼(Encoding)和 注解(Annotation)的過程。這種過程與圖像內(nèi)容的各層描述密切相關,圖像像素和 區(qū)域信息源于中低層數(shù)據(jù)驅(qū)動,根據(jù)結構型數(shù)據(jù)的相似特性對像素(區(qū)域)進行"標 記"(Labeling),可為高層語義編碼提供有效的低層實體對應關系。目標和場景的中層"分 類"(Categorization)特性也具有明顯的編碼特性,每一類別均可視為簡單的語義描述,為 多語義分析的拓展提供較好的原型描述。
[0005] 我們描述一幅圖像的不同屬性,例如這些底層特征,顏色、紋理、邊緣或形狀等,已 經(jīng)成為了計算機視覺領域中重要課題,識別出一幅圖像中的這些信息也許在大多數(shù)實踐應 用中提供了有用的信息。但是,這絕對不是人類同這個視覺世界進行交流的層次,也不是對 視力障礙群體所提供的描述方式。我們需要做的不僅是一幅場景中識別出許多單獨的目 標,還要分辨出不同的環(huán)境并感知進行的復雜的活動和社交關系。這是圖像理解的高層語 義識別,圖1為圖像理解過程的示意圖。
[0006] 人機交互(human-computerinteraction,HCI)是一門研宄系統(tǒng)與用戶之間的交 互關系的學問。人與計算機系統(tǒng)相互溝通的平臺,是人機對話的接口。以人為中心、自然、高 效的交互是發(fā)展新一代人機交互技術的主要目標。人機交互技術的發(fā)展經(jīng)歷了 3個階段, 其中,第3代人機交互界面一一多模態(tài)用戶界面,在多媒體界面的基礎上,采用語音識別、視 線跟蹤、手勢輸入等新技術,使用戶可用多種形態(tài)或多個通道以自然、并行和協(xié)作的方式進 行交互,系統(tǒng)通過整合多通道精確和非精確信息,快速捕捉用戶的意向,有效地提高人機交 互的自然性和效率。
[0007] 根據(jù)圖像標注方法的發(fā)展進程,目前文獻中用于解決"語義鴻溝"問題的方法按其 側重點大致可分為三類:基于機器學習的方法;基于相關反饋的方法;基于本體的方法。
[0008] (1)基于機器學習的方法
[0009] 目前采用機器學習和統(tǒng)計模型學習進行圖像自動語義標注大體上可分為有監(jiān)督 語義標注和無監(jiān)督語義標注兩大類。有監(jiān)督的分類方法首先通過學習、訓練事先給定的經(jīng) 過語義標注的一組樣本圖像,獲得圖像語義分類器,然后利用分類器將未標注或未歸類的 圖像歸并到某一語義類。最常用的有監(jiān)督學習技術有貝葉斯分類器和支持向量機(Support VectorMachine,SVM)技術。無監(jiān)督語義標注根據(jù)圖像內(nèi)容將庫中圖像(或圖像區(qū)域)聚 類到某些有意義的集合,使得位于同一聚類內(nèi)的圖像的相似度盡可能大,而位于不同聚類 的圖像的相似度盡可能小。然后利用統(tǒng)計方法為每個聚類加一個類標簽,以獲得各個圖像 聚類中的語義信息。簡單來說它的目標在于對輸入數(shù)據(jù)進行合理有效的組織或聚類。該方 法對于手工標注的訓練集要求較低,訓練數(shù)據(jù)和語義概念具有可擴展性。但是嚴格地說,單 純的圖像聚類并不能為一個新的圖像獲取顯式的語義標簽,需要與其他技術結合使用來進 行圖像的自動語義標注,充分發(fā)揮其效率,并達到較高的檢索精度。
[0010] (2)基于相關反饋的方法
[0011] 相關反饋(RelevanceFeedback,RF)的基本思想是指在檢索過程中,用戶根據(jù)先 前檢索結果借助權重調(diào)整已有的查詢要求以給檢索系統(tǒng)提供更多更直接的信息,從而使系 統(tǒng)更好地滿足用戶的要求。簡單的說,反饋的過程是用戶和檢索系統(tǒng)之間的一個交互過程, 系統(tǒng)根據(jù)用戶對當前檢索結果的評價來調(diào)整用戶的初始查詢以及匹配模型的參數(shù),從而達 到對檢索結果的優(yōu)化。相關反饋在本質(zhì)上還是一個學習過程,它的方法具有與人類學習方 法類似的思路,是一種很有價值的研宄語義映射的方法,在視覺特征層次和語義層次都能 獲得較好的檢索效果。其具有樣本數(shù)少、實時性要求強等特點,但是有可能產(chǎn)生檢索時間過 長,結果振蕩等問題。
[0012] (3)基于對象本體的方法
[0013] 本體(Ontology)在文本信息檢索中有廣泛的應用,但在圖像檢索領域起步較晚。 本體指的是特定領域公認的關于該領域的對象(實際對象和邏輯對象)及其關系的概念化 表述。它指出圖像中不同的對象可以用簡單描述詞的集合來定義,如"天空"定義為"在上 方的、均勻的、藍色的"區(qū)域。通過將顏色、位置、大小和形狀等底層特征離散化后與映射到 這些簡單語義上,最終可以得到對象語義。對于類型比較單一的圖像庫,基于本體的方法能 得到較好的效果。而對大型圖像數(shù)據(jù)庫而言,這一方法效果不佳。下圖給出了一幅當前通 過計算機自動實現(xiàn)標注的示意圖,如圖2中所示。
[0014]目前,在計算機視覺領域,大多數(shù)研宄者將研宄工作集中在目標識別和目標分類 上,關于場景環(huán)境的分類也有許多模型被提出,但是一幅靜態(tài)的圖像中對事件的識別這類 研宄很少。而且大多數(shù)基于內(nèi)容檢索圖像、對圖像進行標注都是單一進行的,沒有連貫性的 將這些工作結合起來。則將一幅圖像用計算機如何描述并用語言組織反饋給用戶有很好的 研宄價值。


【發(fā)明內(nèi)容】

[0015] 本發(fā)明的目的在于克服現(xiàn)有技術的不足,本發(fā)明所提出的基于人機交互的圖像高 級語義解析的方法,能夠幫助這樣的弱勢群體體會另一個不同的世界,也可以作為娛樂生 活的一部分。
[0016] 為了解決上述問題,本發(fā)明提出了一種基于人機交互的圖像高級語義解析的方 法,包括:
[0017] 基于便攜式掃描設備掃描源圖像;
[0018] 對源圖像中的目標進行識別;
[0019] 將源圖像中的內(nèi)容進行過濾和解析,并提煉出有效的知識;
[0020] 組織語義將圖像內(nèi)容用語音形式傳遞給用戶。
[0021] 所述基于便攜式掃描設備掃描源圖像包括:
[0022] 基于ARM的便攜式掃描設備掃描源圖像。
[0023] 所述對源圖像中的目標進行識別包括:
[0024] 對圖像的特征提取采用SIFT局部特征提取,同時結合HOG特征和GIST全局特征, 能夠更全面的獲取圖像信息。
[0025] 所述將源圖像中的內(nèi)容進行過濾和解析,并提煉出有效的知識包括:
[0026] 采取詞袋模型圖像分類方法提煉出有效的知識。
[0027] 所述詞袋模型圖像分類方法包括:
[0028] 通過圖像分割或隨機采樣等方式檢測特征點;
[0029] 對圖像提取局部特征,并生成描述符;
[0030] 將關于這些特征點的描述符利用聚類的方法,其中每一個聚類中心為一個視覺單 詞;
[0031] 將每個視覺單詞出現(xiàn)的頻率統(tǒng)計成視覺單詞直方圖。
[0032] 所述組織語義將圖像內(nèi)容用語音形式傳遞給用戶包括:
[0033] 采用潛在語義提取技術將圖像內(nèi)容用語音形式傳遞給用戶。
[0034] 實施本發(fā)明實施例,本發(fā)明主要是針對視力障礙群體和自學能力較弱的群體,只 需憑借簡單的掃描工作,無需借助視覺系統(tǒng)通過計算機描述圖像,能夠幫助這樣的弱勢群 體體會另一個不同的世界,也可以作為娛樂生活的一部分。操作簡單,移植性良好。

【專利附圖】

【附圖說明】
[0035] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以 根據(jù)這些附圖獲得其它的附圖。
[0036] 圖1是現(xiàn)有技術中的圖像處理過程流程圖;
[0037] 圖2是現(xiàn)有技術中的自動圖像標注示例圖;
[0038] 圖3是本發(fā)明實施例中的基于人機交互的圖像高級語義解析的方法流程圖;
[0039] 圖4是本發(fā)明實施例中的描設備結構原理圖。

【具體實施方式】
[0040] 下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;?本發(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0041] 本發(fā)明針對任意一幅圖像(彩色圖像或黑白圖),借助一個手持便攜式的掃描設 備進行整體掃描,使得源圖像信息錄入該系統(tǒng),系統(tǒng)對圖像中的目標進行識別,并將其內(nèi)容 進行過濾和解析,提煉出有效知識,組織語義將圖像內(nèi)容用語音形式傳遞給用戶。例如:一 幅水上劃船的圖像,通過系統(tǒng)識別出一個人,一條船,一片湖,一根魚竿,天空,樹木等目標, 系統(tǒng)進行目標分析及圖像語義的組織,最后將用語音設備輸出信息:人在湖上釣魚。該系統(tǒng) 發(fā)明主要目的在于幫助有視力障礙的患者(弱視,盲人等)或不識字的老人以及學前兒童 在無人力協(xié)助情況下有效的識別圖像內(nèi)容,讓該群體去了解不能接觸的外界。這種基于人 機交互的高級語義解析系統(tǒng)具有很好的兼容性及移植性,操作便捷。系統(tǒng)的工作流程圖如 圖3中所示。
[0042] (1)基于ARM的便攜式掃描設備(硬件)
[0043] 硬件層主要由系統(tǒng)核心部分、掃描部分和人機接口部分組成。另外,為了擴充其功 能及適應多種應用場合,預留了一些擴展接口。微處理器選用目前常見的三星S3C2410X芯 片,芯片內(nèi)核是帶16KB數(shù)據(jù)Cache和16KB指令Cache的ARM9TDMI核,工作頻率203MHz。 存貯器采用64MB的NANDFlash和64MB的SDRAM。掃描部分采用SDIO掌上型掃描卡。基 于微線性CMOS映像技術的此款SDIOISC掃描卡,可掃描所有主流的線性條碼。人機接口 部分用三星公司的LTV350QV-F05型3. 5寸TFT觸摸屏,配以觸摸板,可同時實現(xiàn)顯示及鍵 盤功能,有利于減小設備的體積。以太網(wǎng)口用于數(shù)據(jù)的傳輸和下載。預留USB、RS232等接 口以方便該設備的功能擴充。
[0044] (2)特征提取技術
[0045] 由于SIFT特征對光照、尺度等具有不變性,對圖像的特征提取采用SIFT局部特征 提取,同時結合HOG特征和GIST全局特征,能夠更全面的獲取圖像信息。
[0046] (3)BOW模型描述
[0047] 隨著局部特征在計算機視覺領域的廣泛應用,基于局部特征的圖像分類識別方 法也得到了更為廣泛的關注。由于局部特征在提取吋,每幅圖像檢測得到的特征點數(shù)目不 統(tǒng)一,使得在機器訓練時無法入手,并且這些方法都是基于特征點來進行匹配,其計算量 大的缺點凸顯而無法滿足日益增大的圖像數(shù)據(jù)庫的需求。為了克服這些問題,美國斯坦福 大學的Ll-feifei等學者首先將詞袋模型作為一種特征表示應用到計算機圖像處理領域。 詞袋模型圖像分類方法不僅能很好的解決圖像局部特征不統(tǒng)一的問題,而且表示方法也 比較簡單,訓練分類快速,得到了極大的發(fā)展。受文本檢索方法的啟示,詞袋模型由于其 高性能受到國內(nèi)外的學者越來越多的關注。詞袋模型已經(jīng)被廣泛地應用于圖像分類和檢索 中:
[0048] 詞袋模型生成主要步驟為:
[0049] ①通過圖像分割或隨機采樣等方式檢測特征點。
[0050] ②對圖像提取局部特征(SIFT),并生成描述符。
[0051] ③將關于這些特征點的描述符利用聚類的方法(通常采用K-means聚類)形成視 覺詞典(VisualVocabulary),其中每一個聚類中心為一個視覺單詞。
[0052] ④將每個視覺單詞出現(xiàn)的頻率統(tǒng)計成視覺單詞直方圖。
[0053] (4)潛在語義提取技術
[0054] 自然語言處理(NLP)的很多應用都需要探宄隱藏在字、詞背后的涵義,簡單的字 面匹配絕難奏效,關鍵在于同義詞和一詞多義的把握.潛在語義分析(LSA)為此提供了 部分解決問題的方法,即利用奇異值分解(SVD)將高維度的詞匯-文檔共現(xiàn)矩陣映射到 低維度的潛在語義空間,使得表面毫不相關的詞體現(xiàn)出深層次的聯(lián)系。概率潛在語義分析 (PLSA)作為潛在語義分析(LSA)的變種,擁有更堅實的數(shù)學基礎及易于利用的數(shù)據(jù)生成模 型,且已被證實能夠為信息提取提供更好的詞匯匹配。給定一個文檔集合D= {dl,d2,··· ,dM}和一個詞集合W= {wl,w2,…,wN}以及一個文檔和詞的共現(xiàn)頻率矩陣N=(nij), n(di,wj)表示詞wj在文檔dj中出現(xiàn)的頻率。使用Z= {zl,z2,…,zK}表示潛在語義的 集合,K為人工指定的一個常數(shù)。概率潛在語義分析假設"文檔一詞"對之間是條件獨立的, 并且潛在語義在文檔或詞上分布也是條件獨立的.在上面假設的前提下,可使用下列公式 來表示"文檔一詞"的條件概率:
[0055]

【權利要求】
1. 一種基于人機交互的圖像高級語義解析的方法,其特征在于,包括: 基于便攜式掃描設備掃描源圖像; 對源圖像中的目標進行識別; 將源圖像中的內(nèi)容進行過濾和解析,并提煉出有效的知識; 組織語義將圖像內(nèi)容用語音形式傳遞給用戶。
2. 如權利要求1所述的基于人機交互的圖像高級語義解析的方法,其特征在于,所述 基于便攜式掃描設備掃描源圖像包括: 基于ARM的便攜式掃描設備掃描源圖像。
3. 如權利要求2所述的基于人機交互的圖像高級語義解析的方法,其特征在于,所述 對源圖像中的目標進行識別包括: 對圖像的特征提取采用SIFT局部特征提取,同時結合HOG特征和GIST全局特征,能夠 更全面的獲取圖像信息。
4. 如權利要求3所述的基于人機交互的圖像高級語義解析的方法,其特征在于,所述 將源圖像中的內(nèi)容進行過濾和解析,并提煉出有效的知識包括: 采取詞袋模型圖像分類方法提煉出有效的知識。
5. 如權利要求4所述的基于人機交互的圖像高級語義解析的方法,其特征在于,所述 詞袋模型圖像分類方法包括: 通過圖像分割或隨機采樣等方式檢測特征點; 對圖像提取局部特征,并生成描述符; 將關于這些特征點的描述符利用聚類的方法,其中每一個聚類中心為一個視覺單詞; 將每個視覺單詞出現(xiàn)的頻率統(tǒng)計成視覺單詞直方圖。
6. 如權利要求5所述的基于人機交互的圖像高級語義解析的方法,其特征在于,所述 組織語義將圖像內(nèi)容用語音形式傳遞給用戶包括: 采用潛在語義提取技術將圖像內(nèi)容用語音形式傳遞給用戶。
【文檔編號】G06K9/62GK104484666SQ201410790684
【公開日】2015年4月1日 申請日期:2014年12月17日 優(yōu)先權日:2014年12月17日
【發(fā)明者】林格, 羅甜, 羅笑南 申請人:中山大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1