在電子裝置中與播放音頻組合地顯示圖像的方法

文檔序號：7799338閱讀：191來源：國知局

在電子裝置中與播放音頻組合地顯示圖像的方法
【專利摘要】一種在電子裝置中與播放音頻組合地顯示圖像的方法，所述方法包括：顯示圖像：當選擇了圖像內的第一圖像對象時，輸出與第一圖像對象相應的第一音頻對象；當選擇了圖像內的第二圖像對象時，輸出與第二圖像對象相應的第二音頻對象。
【專利說明】在電子裝置中與播放音頻組合地顯示圖像的方法

【技術領域】
[0001] 本發(fā)明總體上涉及在電子裝置中播放圖像和音頻。

【背景技術】
[0002] 許多電子裝置可作為多媒體裝置而進行操作，所述多媒體裝置提供輸入、編輯、詢問或播放圖像和音頻的功能中的至少一種或多種功能。這些電子裝置支持各種文件格式和編解碼器。通常，作為包含根據(jù)編解碼器而編碼的媒體數(shù)據(jù)的預定格式的容器的多媒體文件的格式包括這樣的信息：諸如，媒體內的播放位置信息以及媒體的時間信息。多媒體文件可提供諸如播放、暫停和搜索的各種功能。
[0003] 例如，圖像可以是靜止圖像或視頻，并經常使用諸如聯(lián)合圖像專家組（JPEG)、圖像互換格式（GIF)、位圖（BMP)、標簽圖像文件格式（TIFF)、AI、H. 263、H. 264、運動圖像專家組（MPEG)、音頻視頻交錯（AVI)、Windows媒體視頻（WMV)、DivX、XviD、MOV、高級串流格式 (ASF)和VP8的編解碼器或文件格式。音頻經常使用諸如G. 711、G. 726、G. 723、G. 729、增強變速率編解碼器（EVRC)、自適應多速率（AMR)、弧一致性-3 (AC-3)、Windows媒體音頻 (WMA)、MPEG音頻層-3 (MP3)、樂器數(shù)字接口（MIDI)、脈沖編碼調制（PCM)、自適應差分脈沖編碼調制（ADPCM)、第三代合作伙伴計劃（3GPP)、第三代合作伙伴計劃2 (3GPP2)和Ogg Vorbis的編解碼器或文件格式。
[0004] 如上所述，各種電子裝置可通過使用相機功能將視覺數(shù)據(jù)提供給用戶。

【發(fā)明內容】

[0005] 本發(fā)明的一方面在于解決上述問題和/或缺點并至少提供以下優(yōu)點。因此，本發(fā) 明的一方面可在電子裝置中組合圖像和音頻。
[0006] 本發(fā)明的另一方面在于在電子裝置中從在圖像拍攝時記錄的音頻提取與圖像中的每個對象相應的音頻。
[0007] 本發(fā)明的另一方面在于在電子裝置中將在圖像拍攝時記錄的音頻與圖像內的每個對象對應。
[0008] 本發(fā)明的另一方面在于在電子裝置中選擇性地輸出與圖像內的每個對象相應的音頻。
[0009] 通過提供一種用于與播放音頻組合地顯示圖像的方法來實現(xiàn)上述方面。
[0010] 根據(jù)本發(fā)明的一方面，一種電子裝置的操作方法，包括：顯示圖像；當選擇了圖像內的第一圖像對象時，輸出與第一圖像對象相應的第一音頻對象，當選擇了圖像內的第二圖像對象時，輸出與第二圖像對象相應的第二音頻對象。
[0011] 根據(jù)本發(fā)明的一方面，一種電子裝置的操作方法，包括：收集圖像和音頻；基于從圖像中提取的至少一個圖像對象和從音頻中提取的至少一個音頻對象，確定所述至少一個圖像對象與所述至少一個音頻對象之間的相應關系；存儲包括指示圖像的圖像數(shù)據(jù)、指示音頻的音頻數(shù)據(jù)和指示相應關系的映射數(shù)據(jù)的組合數(shù)據(jù)集。
[0012] 根據(jù)本發(fā)明的另一方面，一種電子裝置包括顯示單元和處理器。顯示單元顯示圖像。處理器進行控制以當選擇了圖像內的第一圖像對象時輸出與第一圖像對象相應的第一音頻對象，并當選擇了圖像內的第二圖像對象時輸出與第二圖像對象相應的第二音頻對象。
[0013] 根據(jù)本發(fā)明的另一方面，一種電子裝置包括處理器和存儲單元。處理器收集圖像和音頻，基于從圖像中提取的至少一個圖像對象和從音頻中提取的至少一個音頻對象，確定所述至少一個圖像對象與所述至少一個音頻對象之間的相應關系。存儲單元存儲包括指示圖像的圖像數(shù)據(jù)、指示音頻的音頻數(shù)據(jù)和指示相應關系的映射數(shù)據(jù)的組合數(shù)據(jù)集。
[0014] 根據(jù)本發(fā)明的另一方面，一種電子裝置包括存儲器、處理器和顯示單元。存儲器存儲至少一個軟件模塊。處理器執(zhí)行存儲在存儲器中的所述至少一個軟件模塊。顯示單元根據(jù)處理器的控制來顯示圖像。所述至少一個軟件模塊包括控制用于當選擇了圖像內的第一圖像對象時輸出與第一圖像對象相應的第一音頻對象并當選擇了圖像內的第二圖像對象時輸出與第二圖像對象相應的第二音頻對象的至少一個指令集。
[0015] 根據(jù)本發(fā)明的另一方面，一種電子裝置包括存儲器和處理器。存儲器存儲至少一個軟件模塊。處理器執(zhí)行存儲在存儲器中的所述至少一個軟件模塊。所述至少一個軟件模塊包括控制用于收集圖像和音頻、基于從圖像中提取的至少一個圖像對象和從音頻中提取的至少一個音頻對象來確定所述至少一個圖像對象與所述至少一個音頻對象之間的相應關系、存儲包括指示圖像的圖像數(shù)據(jù)、指示音頻的音頻數(shù)據(jù)和指示相應關系的映射數(shù)據(jù)的組合數(shù)據(jù)集的至少一個指令集。
[0016] 根據(jù)本發(fā)明的另一方面，提供了一種計算機可讀存儲介質。所述存儲介質存儲包括當由電子裝置執(zhí)行時能夠使電子裝置執(zhí)行在權利要求1至50之一要求保護的方法的指令的至少一個程序。根據(jù)本發(fā)明的一方面，一種電子裝置的操作方法包括：顯示通過第一相機輸入的第一圖像和通過第二相機輸入的第二圖像；當產生音頻時，確定第一相機和第二相機的拍攝方向中的正確相機方向；基于確定的方向信息，將音頻與第一圖像和第二圖像中通過相應方向的相機輸入的圖像映射。

【專利附圖】

【附圖說明】
[0017] 通過下面組合附圖進行的詳細描述，本發(fā)明的上述和其它對象、特征和優(yōu)點將變得更加清楚，其中：
[0018] 圖1示出根據(jù)本發(fā)明實施例的圖像和音頻組合技術；
[0019] 圖2示出根據(jù)本發(fā)明實施例的將在電子裝置中產生的圖像和音頻進行組合的數(shù) 據(jù)的結構；
[0020] 圖3示出根據(jù)本發(fā)明實施例的電子裝置中的圖像捕捉時間點和音頻存儲持續(xù)時間的示例；
[0021] 圖4示出根據(jù)本發(fā)明實施例的在電子裝置中從視頻收集圖像和音頻的示例；
[0022] 圖5A至圖5B示出根據(jù)本發(fā)明實施例的在電子裝置中提取圖像對象和音頻對象的示例；
[0023] 圖6A至圖6D示出根據(jù)本發(fā)明實施例的對在電子裝置中設置的組合數(shù)據(jù)進行編碼的示例；
[0024] 圖7示出根據(jù)本發(fā)明實施例的在電子裝置中映射圖像對象和音頻對象的示例；
[0025] 圖8A至圖8B示出根據(jù)本發(fā)明實施例的在電子裝置中通過圖像對象來輸出音頻對象的示例；
[0026] 圖9示出根據(jù)本發(fā)明實施例的當選擇多個圖像對象時在電子裝置中輸出音頻對象的示例；
[0027] 圖10示出根據(jù)本發(fā)明實施例的在電子裝置中刪除音頻對象的示例；
[0028] 圖11示出根據(jù)本發(fā)明實施例的在電子裝置中的根據(jù)圖像片段的圖像對象片段和音頻對象片段的示例；
[0029] 圖12示出根據(jù)本發(fā)明實施例的在電子裝置中通知圖像與音頻組合的用戶界面 (UI)的示例；
[0030] 圖13示出根據(jù)本發(fā)明實施例的在電子裝置中分離并顯示圖像對象的示例；
[0031] 圖14示出根據(jù)本發(fā)明實施例的在電子裝置中顯示音頻對象輸出按鈕的示例；
[0032] 圖15A至圖15D示出根據(jù)本發(fā)明實施例的在電子裝置中的畫中畫（PIP)屏幕控制的示例；
[0033] 圖16示出根據(jù)本發(fā)明實施例的在電子裝置中用于將圖像和音頻進行組合的功能塊的結構；
[0034] 圖17示出根據(jù)本發(fā)明實施例的在電子裝置中用于將圖像和音頻進行組合的操作過程；
[0035] 圖18示出根據(jù)本發(fā)明實施例的在電子裝置中用于播放圖像和音頻的組合數(shù)據(jù)集的操作過程；
[0036] 圖19示出根據(jù)本發(fā)明實施例的電子裝置的結構；
[0037] 圖20示出根據(jù)本發(fā)明另一實施例的電子裝置的結構。

【具體實施方式】
[0038] 以下將參照附圖來描述本發(fā)明的實施例。在以下描述中，不對已知功能或結構進行詳細描述，從而不以不必要的細節(jié)而模糊本發(fā)明。考慮本發(fā)明中的功能而限定的以下描述的術語可根據(jù)用戶和操作者的意圖或實踐而不同。因此，應基于本發(fā)明貫穿本說明書來限定所述術語。
[0039] 本發(fā)明涉及顯示圖像和輸出與在圖像內選擇的圖像對象相應的音頻對象。以下，本發(fā)明的各種實施例描述了能夠在電子裝置中將圖像和音頻進行組合的技術。例如，電子裝置可將諸如靜止圖像和視頻的圖像數(shù)據(jù)與諸如語音、背景音和音樂的音頻數(shù)據(jù)進行組合以播放圖像數(shù)據(jù)和音頻數(shù)據(jù)的組合。
[0040] 電子裝置可以是便攜式電子裝置，并且可以是以下裝置之一：智能電話、便攜式終端、移動電話、移動平板、媒體播放器、平板計算機、手提計算機、個人數(shù)字助理（PDA)、筆記本計算機、個人計算機（PC)、電子相框、超便攜PC、便攜式媒體播放器（PMP)、MP3播放器和用于處理圖像和音頻的諸如便攜式音頻播放器的計算系統(tǒng)裝置。電子裝置可將上述裝置中的兩種或多種功能進行組合。
[0041] 圖1示出根據(jù)本發(fā)明實施例的圖像和音頻組合技術。
[0042] 參照圖1，圖像和音頻組合技術包括圖像拍攝操作110、圖像分析操作115、音頻記錄操作120、音頻分析操作125以及圖像對象和音頻對象映射操作130。
[0043] 圖像拍攝操作110包括通過在電子裝置中提供的成像裝置(諸如，相機）來產生圖像數(shù)據(jù)。音頻記錄操作120包括通過在電子裝置中提供的記錄裝置(諸如，麥克風）來將外部聲音轉變?yōu)閿?shù)據(jù)。圖像分析操作115包括在拍攝的圖像內識別圖像對象，并設置每個圖像對象的區(qū)域。圖像對象指定圖像內的特定對象(例如，人或物體）和姿態(tài)中的一個，并被指定為圖像內的閉合圓環(huán)區(qū)域。為此，圖像分析操作115可采用諸如角色識別或面部識別的技術。音頻分析操作125包括從記錄的一個音頻數(shù)據(jù)識別和提取每個對象的音頻。為了更有效地音頻提取，音頻分析操作125可采用諸如噪聲去除和快門聲去處的聲音源處理技術。映射操作130包括產生關于圖像內的圖像對象和從音頻提取的音頻對象的組合信息。組合信息可被配置為分離的數(shù)據(jù)庫的形式或者圖像文件或音頻文件的一部分的形式。
[0044] 如上所述，根據(jù)本發(fā)明實施例的電子裝置可收集和組合圖像和音頻。當顯示圖像時，根據(jù)本發(fā)明實施例的電子裝置可使用圖像和音頻組合信息輸出音頻。
[0045] 為了描述方便，"圖像對象"表示從收集的整個圖像提取的圖像單元，"音頻對象" 表示從記錄的整個音頻分離的將被映射到每個圖像對象的音頻單元，"映射數(shù)據(jù)"表示圖像對象與音頻對象之間的映射信息，"組合數(shù)據(jù)集"表示整個圖像、圖像對象指定信息、整個音頻、至少一個音頻對象和映射數(shù)據(jù)的捆綁。
[0046] 圖2示出根據(jù)本發(fā)明實施例的將在電子裝置中產生的圖像和音頻進行組合的數(shù) 據(jù)的結構。
[0047] 參照圖2,組合數(shù)據(jù)集200包括圖像數(shù)據(jù)210、音頻數(shù)據(jù)220和映射數(shù)據(jù)230。
[0048] 圖像數(shù)據(jù)210包括拍攝的圖像（S卩，已被拍攝的圖像）和從拍攝的圖像產生的圖像相關數(shù)據(jù)。例如，圖像數(shù)據(jù)210包括拍攝的圖像、圖像對象指定信息、糾正圖像和用于訪問圖像數(shù)據(jù)的間接信息。圖像對象指定信息包括整個圖像中包括相應的圖像對象的區(qū)域的像素坐標。如果所述區(qū)域是圓圈的形式，則圖像對象指定信息包括中心坐標和半徑長度。如果所述區(qū)域是矩形形式，則圖像對象指定信息包括左上角和右下角的坐標以及右上角和左下角的坐標。
[0049] 可選擇地，圖像對象指定信息包括面部區(qū)域內的像素的坐標或輪廓的邊界線像素的坐標。圖像對象指定信息還可包括圖像對象的名稱或指示符。糾正圖像表示應用圖像處理技術(諸如，縮放、顏色轉換、亮度調節(jié)、灰度處理和平滑)的圖像。間接信息包括指示圖像數(shù)據(jù)210的全部或部分構成項的統(tǒng)一資源定位符（URL)或鏈接。
[0050] 音頻數(shù)據(jù)220包括記錄的全部音頻、處理的音頻、至少一個音頻對象、音頻特征信息和用于訪問音頻數(shù)據(jù)的間接信息。處理的音頻可以是例如通過噪聲去除技術和諸如背景聲分離和回聲消除器的技術去除噪聲或快門聲的音頻?？蛇x擇地，處理的音頻可以是去除捆綁持續(xù)時間的音頻。音頻對象是與一個圖像對象相應的單元。音頻對象可以是一個音頻文件或音頻文件內的部分持續(xù)時間。音頻特征信息包括每個音頻對象的頻帶、聲波或頻率的樣式、音高、節(jié)奏、音調、白噪聲、捆綁持續(xù)時間、振幅、波長、語調、口音或發(fā)音組合。間接信息包括指示音頻數(shù)據(jù)220的全部或部分構成項的URL或鏈接。
[0051] 映射數(shù)據(jù)230包括對象識別信息和相應關系信息。對象識別信息表示關于至少一個圖像對象和至少一個音頻對象的識別信息。相應關系信息表示圖像對象與音頻對象之間的相應關系。
[0052] 為了配置如圖2中所示的組合數(shù)據(jù)集200,電子裝置拍攝圖像并記錄音頻，從而收集圖像和音頻。電子裝置可如下收集圖像和音頻。
[0053] 根據(jù)本發(fā)明的實施例，電子裝置可存儲在拍攝圖像時輸入的音頻。在電子裝置通過用戶的指令在圖像拍攝模式下進行操作時，電子裝置連續(xù)地顯示預覽屏幕。在預覽屏幕被顯示時，電子裝置臨時存儲通過麥克風輸入的音頻。如果快門在預覽屏幕顯示狀態(tài)下被按下，則電子裝置在快門按下時間點通過圖像傳感器捕捉圖像，并存儲在捕捉圖像的時間點臨時存儲的音頻。存儲的音頻的持續(xù)時間可根據(jù)本發(fā)明的實施例而不同。
[0054] 圖3示出根據(jù)本發(fā)明實施例的電子裝置中的圖像捕捉時間點和音頻存儲持續(xù)時間的示例。參照圖3,快門在時間點（tl)300被按下，圖像在時間點（tl)300被捕捉。音頻存儲持續(xù)時間可以是具有時間點（tl)300作為終點的音頻存儲持續(xù)時間A311、包括時間點 (tl) 300之前和之后的音頻存儲持續(xù)時間B312以及具有時間點（tl) 300作為開始點的音頻存儲持續(xù)時間C313中的一個。雖然未在圖3中示出，但是音頻存儲持續(xù)時間可以是與時間點（11) 300分離了預定時間的持續(xù)時間。
[0055] 根據(jù)本發(fā)明的另一實施例，電子裝置可使用視頻拍攝功能收集圖像和音頻。
[0056] 電子裝置拍攝包括音頻的視頻，并通過最大記錄容量或根據(jù)時間的自動結束或用戶的中斷指令輸入來結束視頻拍攝，從構成視頻的視頻軌跡內的幀提取至少一個圖像，并從音頻軌跡收集音頻。
[0057] 圖4示出根據(jù)本發(fā)明實施例的在電子裝置中從視頻收集圖像和音頻的示例。參照圖4,拍攝視頻410包括視頻軌跡413和音頻軌跡415。視頻軌跡413包括多個幀(幀#1、幀#2、幀#3、……、幀#n)。電子裝置通過從視頻軌跡413提取至少一個圖像產生圖像數(shù)據(jù) 421，并從音頻軌跡415產生音頻數(shù)據(jù)422。
[0058] 在提取圖像的方法中，電子裝置從視頻提取至少一個圖像。提取的圖像包括幀內幀（I幀)、發(fā)生多于一個參考的運動的持續(xù)時間的幀或者按照預定時間間隔放置的幀。在評估對焦的圖像質量(例如，圖像對比度、噪聲比率、亮度和清晰度）之后，電子裝置提取多于一個參考的至少一個好的圖像。電子裝置可合成或覆蓋多個圖像以確定平均圖像，或通過圖像質量提高算法產生一個或更多轉換的圖像。
[0059] 在收集音頻的方法中，電子裝置可通過分離音頻軌跡并對音頻軌跡進行編碼來收集音頻。電子裝置可從音頻去除多于預定時間段的捆綁持續(xù)時間。
[0060] 根據(jù)本發(fā)明的實施例，電子裝置可存儲在音頻記錄期間輸入的圖像。
[0061] 電子裝置根據(jù)通過用戶界面的開始指令來開始音頻記錄。在音頻記錄期間，電子裝置拍攝一個或多個圖像?？勺駨念A定義的規(guī)則或者根據(jù)用戶的指令來自動地執(zhí)行圖像拍攝。例如，在自動方案中，預定義的規(guī)則包括當說話者開始運動嘴部并且開始音頻輸入時、當輸入新的說話者的語音或新類型的音頻時或當識別到面部時。對于另一示例，在手動方案中，可當觸摸或點擊在預覽屏幕上顯示的物體或人臉區(qū)域時，并可當按下相機按鈕或鍵時，執(zhí)行圖像拍攝。
[0062]為了收集極高質量的音頻，電子裝置可去除在圖像拍攝中產生的快門聲。為此，電子裝置可去除當在相機拍攝中產生的快門聲被輸入到音頻輸入裝置(諸如，麥克風）時的快門聲，或可通過記錄的音頻的后處理來去除快門聲。
[0063] 通過在電子裝置中播放與快門聲相應的聲音源，或者通過按下機械快門按鈕，來產生快門聲。當通過播放聲音源來產生快門聲時，電子裝置獲知何時發(fā)生快門聲以及快門聲的信號樣式。因此，電子裝置可通過噪聲去除技術或諸如回聲消除器的技術來去除快門聲。詳細地，處理器將關于快門聲音源的信息轉發(fā)到音頻分析單元，從而可去除通過音頻輸入裝置輸入的音頻信號中的快門聲。當通過機械操作產生快門聲時，電子裝置將機械聲的音頻信號的樣式存儲在存儲器中，并響應于當按下快門按鈕時的相應的輸入信號來從通過音頻輸入裝置輸入的音頻信號中去除相應的機械聲的音頻信號。
[0064] 根據(jù)另一實施例，當包括快門聲時，電子裝置可按照從記錄的音頻中搜索和去除快門聲的音頻信號樣式的后處理方法來去除快門聲。
[0065] 根據(jù)另一實施例，為了避免將輸入到或存儲在音頻輸入裝置中的快門聲或機械聲，電子裝置可感測快門聲，并在產生快門聲時停止記錄音頻?？蛇x擇地，在產生快門聲時，電子裝置可不記錄快門聲所屬的音高區(qū)域的聲音。
[0066] 在收集圖像和音頻之后，根據(jù)本發(fā)明實施例的電子裝置從圖像提取至少一個圖像對象并從音頻提取至少一個音頻對象，并確定所述至少一個圖像對象與所述至少一個音頻對象之間的相應關系。
[0067] 電子裝置可從收集的音頻執(zhí)行噪聲去除，例如，分離說話者的語音、背景聲音分離和背景聲音去除。電子裝置在圖像上識別音頻產生區(qū)域。例如，在圖像上產生運動或聲音源的情況下，電子裝置可基于方向性識別來識別聲音源產生區(qū)域。電子裝置根據(jù)音頻和圖像分析結果來確定相應關系，并存儲相應關系、圖像數(shù)據(jù)和音頻數(shù)據(jù)。
[0068] 根據(jù)本發(fā)明的實施例，電子裝置可基于面部識別和波形分析來確定相應關系。 [0069] 電子裝置分析收集的圖像，并根據(jù)參考來劃分圖像中顯示的圖像對象。例如，參考可以是人或物。如果是人，則參考可以是男人、女人、孩子或者年輕人或老年人。為了區(qū)分人和物，電子裝置可使用面部識別技術?？蓪⒎诸惤Y果(例如，圖像數(shù)據(jù)內的面部坐標信息、面部縮略圖圖像數(shù)據(jù)、對象標識符（ID)、男人/女人/孩子/年輕人或老年人的對象特征信息）存儲在例如相應的圖像文件的頭或者單獨的數(shù)據(jù)庫或者與圖像數(shù)據(jù)相關聯(lián)的文件中。
[0070] 電子裝置分析收集的音頻的波形，基于每個波形的特征提取音頻對象，并將提取的音頻對象映射到具有與音頻對象相應的特征的圖像對象?？墒褂美珙l率分析、聲音升 /降分析、音量分析、音高（pitch)分析或與事物的典型波形的相似度的確定來執(zhí)行波形分析。
[0071] 圖5A至圖5B示出根據(jù)本發(fā)明實施例的在電子裝置中提取圖像對象和音頻對象的示例。參照圖5A至圖5B，電子裝置分析圖像數(shù)據(jù)。電子裝置通過面部識別來區(qū)分人/物，并將人區(qū)分為男人/女人/孩子/年輕人或老年人，其中，所述男人/女人/孩子/年輕人或老年人基于至少一個圖像對象被提取。例如，電子裝置首先將圖像對象A511和圖像對象B512區(qū)分為人，并將圖像對象C513區(qū)分為海。電子裝置隨后將圖像對象A511區(qū)分為女人，并將圖像對象B512區(qū)分為男人。電子裝置隨后分析音頻數(shù)據(jù)。電子裝置使用通過經由持續(xù)時間的音頻聲波分析的聲波的唯一特征來區(qū)分人聲/物聲。作為結果，在整個音頻 "AAA?BB?CCCCC?"中，"AAA?[高音高音調]"被分類為音頻對象A521，"BB?[低音高音調]"被分類為音頻對象B522, "CCCCC?[波形聲音]"被分類為音頻對象C523。
[0072] 電子裝置將分類的圖像對象511、512和513的特征與分類的音頻對象521、522和 523進行映射。根據(jù)此，圖像對象A[女人]511和音頻對象A[高音高音調]521被彼此映射，圖像對象B [男人]512和音頻對象B [低音高音調]522被彼此映射，圖像對象C[海]513 和音頻對象C[波形聲音]523被彼此映射。
[0073] 根據(jù)本發(fā)明的另一實施例，電子裝置可基于角色和目標的運動來確定相應關系。
[0074] 在圖像拍攝中，電子裝置可根據(jù)角色或物的運動或手勢來確定與音頻的相應關系。例如，電子裝置識別嘴部運動的人的位置、在音頻記錄發(fā)生時通過圖像捕捉裝置輸入的圖像(例如，預覽圖像）中的面部區(qū)域，從而能夠確定當前正被輸入的音頻的產生對象是什么。例如，電子裝置可確定當前輸入的音頻的產生對象是隨著當前運動而觀察的圖像對象。
[0075] 此外，電子裝置可注冊并存儲圖像對象的區(qū)域信息或通過面部或物識別的信息 (例如，名稱或ID)之間的相應關系以及正被輸入的音頻。
[0076] 根據(jù)本發(fā)明的另一實施例，電子裝置可基于音頻的方向性信息來確定相應關系。
[0077] 在音頻記錄的情況下，電子裝置可確定聲音源的方向，并基于方向或方向性信息來確定產生音頻的圖像對象。例如，如果立體聲麥克風被布置在電子裝置的一側，則電子裝置可確定聲音源的近似方向。電子裝置可從輸入圖像識別與聲音源相應的圖像對象的坐標，并可確定圖像對象與輸入的首頻對象之間的相應關系。例如，當在圖像的左側識別出一個角色并且輸入音頻的方向被確定為在左側時，電子裝置可將在左側識別的角色定義為一個圖像對象，并將圖像對象與當前輸入的音頻映射。
[0078] 對于另一示例，當相機被分別布置在電子裝置的前面和后面時，在電子裝置中提供至少一個麥克風以識別在每個相機鏡頭的方向所產生的聲音源，電子裝置可將通過兩個相機輸入的圖像合成為一個圖像，并在合成的圖像中識別與每個輸入音頻相應的圖像對象。例如，可按照每個相機鏡頭的方向來安裝多個麥克風。雖然與每個相機鏡頭的方向無關地安裝多個麥克風，通過使用從多個麥克風輸入的聲音源的時間差，電子裝置可確定聲音源的方向性。如果安裝的麥克風是方向性麥克風，貝 1J麥克風可自己識別聲音源的方向性。如果支持畫中畫（PIP)功能，則背景圖像區(qū)域被輸入到后面的相機，并且背景圖像區(qū)域可被指定為一個圖像對象并與輸入到后面的麥克風的音頻映射。通過PIP呈現(xiàn)的縮略圖圖像區(qū) 域是通過前面的相機輸入的圖像，縮略圖圖像區(qū)域可被指定為一個圖像對象并與輸入到前面的麥克風的音頻映射。
[0079] 根據(jù)本發(fā)明的另一實施例，如果難以將提取的音頻對象中的每個圖像對象的語音與音頻進行區(qū)分，則電子裝置可將多個特征分類為上層特征，并將多個特征定義為一個群組。例如，電子裝置可將音頻對象分類為高音高音調/低音高音調，并通過男人/女人性別將分類的音頻對象進行分組。
[0080] 在確定圖像與音頻之間的相應關系中，不必須僅在同時拍攝的圖像和記錄的音頻之間設置相應關系。例如，甚至可在不同時間點收集的圖像與音頻之間確定相應關系。
[0081] 例如，電子裝置收集第一圖像和第一音頻，并通過分析操作設置第一圖像與第一音頻之間的相應關系。電子裝置收集第二圖像和第二音頻，并分析第一圖像、第一音頻、第二圖像和第二音頻，并隨后設置它們之間的相關關系。當?shù)谝粓D像與第二音頻之間的相關性相對較高時，電子裝置將從第二音頻而不是第一音頻提取的音頻對象與從第一圖像提取的圖像對象映射。例如，當角色A發(fā)音"AAA"并且角色B發(fā)音"BBB"時，如果第一音頻包括 "AAA"但是角色B在第一圖像拍攝時被拍攝，則第一圖像與第一音頻之間的相關性低。如果第二音頻包括"BBB"但是角色A在第二圖像拍攝時運動，則第二圖像與第二音頻之間的相關性低。在這種情況下，可設置第一圖像與第二音頻之間的相應的相關性以及第二圖像與第一音頻之間的相應的相關性。
[0082] 為此，電子裝置通過圖像和音頻分析來確定相對的相關性，或者通過單獨的Π 從用戶接收相對的相關性。
[0083] 根據(jù)本發(fā)明實施例的電子裝置根據(jù)預定義的規(guī)則來設置圖像對象與音頻對象之間的相應關系。完成這個，電子裝置可提供能夠通過用戶的指令設置相應關系的UI。換句話說，電子裝置可提供能夠將圖像對象與音頻對象彼此映射的Π 。電子裝置可顯示可選擇的音頻對象的列表，識別由用戶選擇的音頻對象，并將音頻對象與識別的圖像對象映射。可選擇地，當由用戶選擇圖像對象時，電子裝置可顯示可映射的音頻對象的列表，并將由用戶選擇的音頻對象與圖像對象映射。例如，電子裝置確定圖像對象與由用戶選擇的音頻對象之間的相應關系。
[0084] 根據(jù)本發(fā)明實施例的電子裝置可將收集的圖像和音頻以及確定的相應關系信息作為組合數(shù)據(jù)集來進行編碼和解碼。下面將詳細描述編碼和解碼。將文件描述為示例，但是本發(fā)明的組合數(shù)據(jù)集的形式可以是比特流。
[0085] 組合數(shù)據(jù)集可被編碼為一個文件或多個文件。
[0086] 圖6A至圖6D示出根據(jù)本發(fā)明實施例的對電子裝置中的組合數(shù)據(jù)集進行編碼的示例。圖6A示出圖像數(shù)據(jù)612被插入到音頻文件611的基于音頻文件的圖像插入形式。圖 6B示出音頻數(shù)據(jù)622被插入到圖像文件621的基于圖像文件的音頻插入形式。圖6C示出圖像數(shù)據(jù)被配置為視頻軌632并且音頻數(shù)據(jù)被配置為音頻軌633的視頻文件631格式的圖像文件和音頻文件合成形式。圖6D示出圖像文件641、音頻文件642和映射信息數(shù)據(jù)庫643 分別單獨存在的添加分離映射信息數(shù)據(jù)的形式。
[0087] 當進行基于音頻文件的圖像插入形式的編碼和解碼時，基于音頻文件的圖像插入形式指示將圖像數(shù)據(jù)包括或添加到音頻文件的一部分的方案。
[0088] 根據(jù)本發(fā)明的實施例，圖像數(shù)據(jù)可被編碼到音頻文件的元數(shù)據(jù)區(qū)域。例如，在MP3 文件中，圖像數(shù)據(jù)可被存儲在ID3標簽中，所述ID3標簽表示在MP3文件格式中定義的元數(shù) 據(jù)的容器。ID3標簽通常包括作曲家、播放時間和專輯圖像的信息。為了配置組合數(shù)據(jù)集，圖像數(shù)據(jù)可被插入到MP3文件的ID3標簽區(qū)域中。例如，圖像數(shù)據(jù)可被插入到專輯圖像區(qū) 域中?？蛇x擇地，與音頻相關聯(lián)的圖像以及說話者的面部圖像的坐標可被存儲在音頻文件的元數(shù)據(jù)區(qū)域中。根據(jù)需要，通過將至少一個圖像數(shù)據(jù)存儲在音頻文件的元數(shù)據(jù)區(qū)域中，各種操作是可能的。
[0089] 根據(jù)本發(fā)明的另一實施例，可定義用于圖像數(shù)據(jù)的單獨的新字段，而不是元數(shù)據(jù) 區(qū)域。在這種情況下，電子裝置將圖像數(shù)據(jù)存儲在針對圖像數(shù)據(jù)新定義的字段中。例如，在音頻文件的前端、后端或特定中間位置定義單獨的新字段，并且可將圖像數(shù)據(jù)存儲在單獨的新字段中。
[0090] 根據(jù)本發(fā)明的另一實施例，圖像數(shù)據(jù)可被包括在音頻文件的文本軌或單獨提供的字幕信息(諸如字幕文件）中。
[0091] 基于音頻文件的圖像插入形式的一個示例是替換包括在MP3文件的ID3標簽區(qū)域中的用于專輯圖像項的靜止圖像。在這種情況下，顯示專輯圖像的一般MP3播放器可與圖像一起輸出音頻。如果使用元數(shù)據(jù)，則可提供各種方案的服務。例如，如果在音頻文件的元數(shù)據(jù)區(qū)域中記錄了諸如用于訪問圖像數(shù)據(jù)的統(tǒng)一資源定位符（URL)的間接信息，則通過使用在音頻播放時處理器需要的圖像數(shù)據(jù)，電子裝置可從存儲器讀取指定的圖像數(shù)據(jù)并顯示圖像。
[0092] 當在元數(shù)據(jù)區(qū)域中存儲有諸如音頻相關區(qū)域的坐標和說話者的面部圖像的附加圖像數(shù)據(jù)時，可由顯示圖像上的用戶輸入控制音頻輸出。例如，如果在顯示圖像上輸入了坐標，則電子裝置可識別與輸入的坐標有關的圖像區(qū)域。如果圖像上的坐標包括在特定區(qū)域中或位于距特定區(qū)域參考距離，則電子裝置可基于元數(shù)據(jù)區(qū)域搜索映射到特定區(qū)域的音頻對象，并輸出搜索的音頻對象。電子裝置可識別與輸入坐標相應的物，并輸出映射到物的音頻對象。在具體示例中，如果在圖像上選擇的區(qū)域是角色的面部，則電子裝置可識別相應的角色，并計算與例如存儲在音頻文件的元數(shù)據(jù)區(qū)域中的角色的面部圖像以及角色信息的匹配率，如果匹配率等于或大于閾值，則輸出映射的音頻對象。
[0093] 存儲在音頻文件的元數(shù)據(jù)區(qū)域中的圖像數(shù)據(jù)可以是多個。例如，一個音頻文件可被映射到不同的圖像對象。如果圖像對象是多個，則每個圖像對象可指定相應的音頻文件的特定部分。
[0094] 圖7示出根據(jù)本發(fā)明實施例的在電子裝置中映射圖像對象和音頻對象的示例。
[0095] 參照圖7,第一圖像對象711可與從音頻文件的00:00:00到00:00:10的持續(xù) 時間A721映射，第二圖像對象712可與從音頻文件的00:00:11到00:00:30的持續(xù)時間 B722映射，第三圖像對象713可與從音頻文件的00:00:31到00:00:50的持續(xù)時間C723 映射。如果第一圖像對象711是由用戶選擇的，則電子裝置輸出作為持續(xù)時間A721的音頻 "AAA?"。如果第二圖像對象712是由用戶選擇的，則電子裝置輸出作為持續(xù)時間B722的音頻"BB?"。如果第三圖像對象713是由用戶選擇的，則電子裝置輸出作為持續(xù)時間C723 的音頻"CCCCC?"。
[0096] 如果圖像數(shù)據(jù)存儲在位于音頻文件的前端、后端和特定中間位置中的針對圖像數(shù) 據(jù)定義的字段中，則電子裝置可通過與使用前述的元數(shù)據(jù)區(qū)域的實施例相似的操作顯示來自圖像數(shù)據(jù)的圖像，并輸出相應的音頻對象。通過使用添加到相應的音頻的圖像數(shù)據(jù)，電子裝置可識別在圖像中選擇的區(qū)域，并根據(jù)區(qū)域輸出不同音頻對象。即使圖像數(shù)據(jù)存儲在音頻文件的文本軌或單獨的字幕信息中，電子裝置也可通過與使用前述的元數(shù)據(jù)區(qū)域的實施例相似的操作顯示來自圖像數(shù)據(jù)的圖像，并輸出相應的音頻對象。
[0097] 以下描述基于圖像文件的音頻插入形式的編碼和解碼?；趫D像文件的音頻插入形式指示將音頻數(shù)據(jù)包括或添加到圖像文件或圖像數(shù)據(jù)流的一部分中的方案。
[0098] 根據(jù)本發(fā)明的實施例，音頻數(shù)據(jù)可被存儲在圖像文件或圖像數(shù)據(jù)的元數(shù)據(jù)區(qū)域中。音頻數(shù)據(jù)可被包括在補充字段中，諸如，JPEG的JPEG文件交換格式（JFIF)、EX可改變圖像文件格式（EXIF)的元數(shù)據(jù)區(qū)域中的APP區(qū)域。可在圖像文件中定義用于音頻數(shù)據(jù)的單獨的新字段。根據(jù)此，音頻數(shù)據(jù)可被存儲在針對音頻數(shù)據(jù)定義的字段中。音頻數(shù)據(jù)也可與映射的數(shù)據(jù)一起存儲。換句話說，音頻數(shù)據(jù)包括至少一個音頻對象，并可與指示與所述至少一個音頻對象映射的圖像對象的信息一起存儲。根據(jù)此，可針對一個圖像文件存儲多個區(qū)域信息和與區(qū)域信息有關的多個音頻對象。
[0099] 如果由用戶選擇了圖像上的與特定圖像對象相應的區(qū)域，則電子裝置從存儲在圖像文件的元數(shù)據(jù)區(qū)域以及針對音頻數(shù)據(jù)定義的字段中的音頻數(shù)據(jù)中搜索映射到選擇的圖像對象的音頻對象，并輸出搜索的音頻對象。
[0100] 如果音頻數(shù)據(jù)存儲在圖像文件的后端，則電子裝置可僅對圖像進行解碼和顯示，并可根據(jù)后面的需要對音頻進行解碼。因此，有利地減少不必要的操作。相反，如果音頻數(shù) 據(jù)位于圖像文件的前端，則電子裝置可快速地搜索音頻。
[0101] 以下描述圖像文件的音頻文件合成形式的編碼和解碼。圖像文件和音頻文件合成形式指示按照視頻形式而不是圖像文件或音頻文件來存儲組合數(shù)據(jù)集的方案。
[0102] 通常，視頻文件包括并被設計為指定視頻軌和音頻軌。根據(jù)本發(fā)明的實施例，電子裝置使用至少一個圖像數(shù)據(jù)配置視頻軌，并在音頻軌中包括音頻數(shù)據(jù)，所述音頻數(shù)據(jù)包括映射到圖像數(shù)據(jù)內的所有圖像對象的音頻對象。根據(jù)此，可通過一般視頻播放器播放圖像和音頻。例如，視頻文件包括視頻軌和音頻軌，其中，視頻軌包括一個或多個靜止圖像，音頻軌包括與靜止圖像內的圖像對象映射的至少一個音頻對象。如果選擇了與靜止圖像內的特定圖像對象相應的區(qū)域，則電子裝置搜索與圖像對象映射的音頻對象所位于的部分，并隨后播放音頻軌。例如，與圖像對象相應的每個區(qū)域作為音頻軌的快捷鍵。
[0103] 以下描述添加單獨的映射信息數(shù)據(jù)的形式的編碼和解碼。添加單獨的映射信息數(shù) 據(jù)的形式表示單獨地存儲圖像文件和音頻文件并產生指示圖像文件和音頻文件兩者之間的組合關系的單獨的映射信息的方案。
[0104] 圖像數(shù)據(jù)和音頻數(shù)據(jù)不被組合為一個捆綁（bundle)，并且產生指示圖像數(shù)據(jù)內的圖像對象與音頻數(shù)據(jù)內的音頻對象之間的組合關系的單獨的數(shù)據(jù)庫。例如，至少一個圖像對象的識別信息和至少一個音頻對象的識別信息可存儲在數(shù)據(jù)庫記錄中。如果在圖像顯示期間選擇了與特定圖像對象相應的區(qū)域，則電子裝置可搜索與數(shù)據(jù)庫的圖像相關記錄中選擇的圖像對象映射的音頻對象，并輸出搜索的音頻對象。
[0105] 如前述實施例中，可在一個記錄中保持和管理多個圖像對象和多個音頻對象。
[0106] 如上所述，根據(jù)本發(fā)明實施例的電子裝置可對組合數(shù)據(jù)集進行編碼和解碼。電子裝置可如下所述移除圖像對象與音頻對象之間的組合關系。
[0107] 當圖像信息存儲在MP3文件的ID3標簽內的專輯圖像項中時，電子裝置可通過移除專輯圖像或使用其它圖像覆蓋專輯圖像來移除圖像數(shù)據(jù)。當針對圖像數(shù)據(jù)的間接信息 (例如，URL)存儲在MP3文件的ID3標簽內的補充元數(shù)據(jù)區(qū)域中時，電子裝置可通過移除或去活元數(shù)據(jù)區(qū)域內的值來移除圖像數(shù)據(jù)。當圖像信息存儲在針對圖像數(shù)據(jù)定義的字段中時，電子裝置可通過移除針對圖像數(shù)據(jù)定義的字段來移除圖像數(shù)據(jù)。當圖像數(shù)據(jù)存儲在字幕信息中時，電子裝置可通過從字幕信息移除用于圖像數(shù)據(jù)的區(qū)域或刪除字幕信息來移除圖像數(shù)據(jù)。
[0108] 當音頻數(shù)據(jù)存儲在圖像文件的元數(shù)據(jù)區(qū)域(例如，JFIF中的APP區(qū)域或JPEG的 EXIF區(qū)域）中時，電子裝置可通過初始化相應的區(qū)域來移除音頻數(shù)據(jù)。當音頻數(shù)據(jù)存儲在圖像文件的特定區(qū)域中（即，在針對音頻數(shù)據(jù)定義的新字段）時，電子裝置可通過去除針對音頻數(shù)據(jù)定義的字段來去除音頻數(shù)據(jù)。
[0109] 當按照圖像文件和音頻文件合成格式進行編碼時，例如，當編碼為視頻文件時，電子裝置可通過將視頻分離為音頻軌和視頻軌并將視頻分離并編碼為音頻文件和視頻文件來移除組合數(shù)據(jù)集。
[0110] 當產生指示相應關系的單獨的數(shù)據(jù)庫時，電子裝置可通過從數(shù)據(jù)庫移除相應記錄、去活相應記錄或刪除相關映射信息來移除組合數(shù)據(jù)集。
[0111] 根據(jù)本發(fā)明實施例的電子裝置可通過使用如下的組合數(shù)據(jù)集來提供功能。
[0112] 圖8A至圖8B示出根據(jù)本發(fā)明實施例的在電子裝置中通過圖像對象來輸出音頻對象的示例。
[0113] 參照圖8A至圖8B，圖像被顯示并包括圖像對象A811和圖像對象B812。如圖8A 中所示，如果發(fā)生圖像對象A811的選擇，則電子裝置輸出與圖像對象A811映射的音頻對象 A821。如圖8B中所示，如果發(fā)生圖像對象B812的選擇，則電子裝置輸出與圖像對象B812 映射的音頻對象B822。
[0114] 如圖8A至圖8B中所示，當用戶選擇與特定圖像對象相應的區(qū)域時，電子裝置識別與選擇的區(qū)域相應的圖像對象，并輸出與圖像對象映射的音頻對象。例如，選擇可被定義為觸摸、點擊或拖拽的事件。對于另一示例，選擇可被定義為針對相應的圖像對象或標識符的名稱的語音輸入或文本輸入。
[0115] 可按照各種方式來定義用于確定選擇的圖像對象的參考。例如，如果事件的發(fā)生的坐標包括在與特定圖像對象相應的區(qū)域內，則電子裝置可確定選擇發(fā)生?？蛇x擇地，電子裝置可搜索在距事件的發(fā)生的坐標預定距離內存在的至少一個預注冊的區(qū)域，并確定與位于所述至少一個預注冊的區(qū)域最近的區(qū)域相應的圖像對象已被選擇。可選擇地，電子裝置可以以發(fā)生事件的圖像區(qū)域為中心來分析圖像，提取諸如角色的面部區(qū)域、角色的輪廓區(qū) 域、圖像上的物的區(qū)域和背景區(qū)域的信息，確定與預注冊的圖像對象的匹配率，搜索匹配率等于或大于閾值的至少一個圖像對象，并確定具有最高匹配率的圖像對象已被選擇。如果識別面部或特定物，則電子裝置可從數(shù)據(jù)庫獲得諸如名稱和ID的信息，并隨后確定相應的圖像對象已被選擇。圖像對象可指定圖像內的特定主體或特定手勢。
[0116] 圖9示出根據(jù)本發(fā)明實施例的當選擇多個圖像對象時在電子裝置中輸出音頻對象的示例。
[0117] 參照圖9,圖像包括圖像對象A911、圖像對象B912和圖像對象C913。圖像對象 A911與音頻對象A921映射，圖像對象B912與音頻對象B922映射，圖像對象C913與音頻對象C映射。當在顯示的圖像上選擇了多個圖像對象(例如，圖像對象A911和圖像對象 B912)時，電子裝置輸出與選擇的圖像對象映射的音頻對象，例如，輸出音頻對象A921和音頻對象B922?？赏ㄟ^例如多觸摸或區(qū)域選擇來實現(xiàn)多個圖像對象的選擇。電子裝置可通過多線程同時輸出音頻對象A921和音頻對象B922,或順序地輸出音頻對象A921和音頻對象 B922。在順序輸出的情況下，音頻對象A921和音頻對象B922可部分重疊。在順序輸出的情況下，音頻對象A921和音頻對象B922的輸出順序可根據(jù)預指定的順序或音頻存儲時間順序。
[0118] 圖10示出根據(jù)本發(fā)明實施例的在電子裝置中刪除音頻對象的示例。
[0119] 參照圖10,圖像包括圖像對象A1011、圖像對象B1012和圖像對象C1013。圖像對象A1011與音頻對象A1021映射，圖像對象B1012與音頻對象B1022映射，圖像對象C1013 與音頻對象C1023映射。圖像對象A1011由用戶選擇。根據(jù)此，電子裝置刪除與圖像對象 A1011映射的音頻對象A1021。
[0120] 可按照針對預定義的音頻對象刪除而定義的刪除模式來執(zhí)行通過圖像對象選擇的音頻對象的刪除。電子裝置可通過單獨的菜單來進入刪除模式，或通過輸入特定樣式(例如，在預定時間期間或更長時間期間按壓特定圖像對象）來臨時地進入刪除模式。在按照刪除模式的圖像對象選擇的情況下，電子裝置可顯示詢問刪除或不刪除的UI (例如，彈出窗口），如果選擇了刪除，則隨后刪除相應的音頻對象。
[0121] 圖11示出根據(jù)本發(fā)明實施例的在電子裝置中的根據(jù)圖像片段的圖像對象片段和音頻對象片段的示例。
[0122] 參照圖11，通過復制或剪切從整個圖像中分割整個圖像中包括圖像對象A1111和圖像對象B1112的部分，導致產生新的組合數(shù)據(jù)集1100。組合數(shù)據(jù)集1100包括圖像對象 A1111和圖像對象B1112,并甚至包括一起與原始圖像映射的音頻對象A1121和音頻對象 B1122。
[0123] 圖12示出根據(jù)本發(fā)明實施例的在電子裝置中通知圖像與音頻組合的Π 的示例。
[0124] 如圖12所示，當顯示如上產生的組合數(shù)據(jù)時，電子裝置可顯示通知圖像和音頻已經彼此組合的Π 。在圖12中，通知圖像和音頻已經彼此組合的Π 1200具有音符的形狀。可選擇地，通知圖像和音頻已經彼此組合的Π 1200可被定義為不同形狀。
[0125] 圖13示出根據(jù)本發(fā)明實施例的在電子裝置中分離并顯示圖像對象的示例。
[0126] 參照圖13,圖像包括圖像對象A1311、圖像對象B1312和圖像對象C1313。電子裝置可通過按照例如特定顏色或特定樣式填充與圖像對象A1311、圖像對象B1312和圖像對象C1313相應的區(qū)域中的每一個區(qū)域來顯示與音頻對象映射的圖像對象，從而圖像對象與圖像內的其它區(qū)域相區(qū)分。在圖13中，根據(jù)不同樣式來區(qū)分每個圖像對象，但是可按照相同樣式來顯示每個圖像對象。因此，用戶可容易地識別與音頻對象映射的圖像對象。
[0127] 圖14示出根據(jù)本發(fā)明實施例的在電子裝置中顯示音頻對象輸出按鈕的示例。
[0128] 參照圖14，圖像包括圖像對象A1411、圖像對象B1412和圖像對象C1413。電子裝置在圖像內顯示被定義為用于命令輸出與圖像對象A1411、圖像對象B1412和圖像對象C1413 中的每一個映射的音頻對象的按鈕A1431、B1432和C1433。因此，用戶可通過選擇不是圖像對象而是相應的按鈕來輸出音頻對象(例如，聲音1、聲音2或聲音3)。
[0129] 圖15A至圖1?示出根據(jù)本發(fā)明實施例的在電子裝置中的PIP屏幕控制的示例。
[0130] 參照圖15A，電子裝置具有在前面的第一相機1501和在后面的第二相機1502。電子裝置提供將輸入到第二相機1502的圖像提供為壁紙圖像并將輸入到第一相機1501的圖像提供為縮略圖圖像的PIP功能。
[0131] 電子裝置具有在前面的第一麥克風1511和在后面的第二麥克風1512。因此，輸入到第二相機1502的壁紙圖像與輸入到第二麥克風1512的音頻映射，并且輸入到第一相機 1501的縮略圖圖像與輸入到第一麥克風1511的音頻映射。
[0132] 如圖15B中所示，如果音頻被輸入到第二麥克風1512,則電子裝置將輸入到第二相機1502的圖像顯示為壁紙圖像，并將輸入到第一相機1501的圖像顯示為縮略圖圖像。相反，如圖15C中所示，如果音頻被輸入到第一麥克風1511，則電子裝置可按照更大的尺寸來顯不輸入到第一相機1501的縮略圖圖像。如圖15D中所不，如果音頻被輸入到第一麥克風 1511，則電子裝置可將輸入到第一相機1501的圖像替換并顯示為壁紙圖像，并將輸入到第二相機1502的圖像替換并顯示為縮略圖圖像。
[0133] 圖15A至圖1?中，第一麥克風1511被安裝在與第一相機1501相同的表面，第二麥克風1512被安裝在與第二相機1502相同的表面。然而，第一麥克風1511和第二麥克風 1512可被安裝在與第一相機1501和第二相機1502被安裝的表面無關的位置。通過使用例如輸入到第一麥克風1511和第二麥克風1512中的每一個的聲音源的輸入時間差、音量差或者諸如通過相機輸入的圖像中的面部圖像的嘴型的改變或動作的運動，電子裝置可確定聲音源的方向。
[0134] 根據(jù)本發(fā)明的實施例，在通過圖像對象輸出音頻對象之前，電子裝置可至少一次與圖像顯示一起輸出整個音頻。如果在整個音頻輸出期間選擇了特定圖像對象，則電子裝置可停止整個音頻輸出，并輸出與選擇的圖像對象相應的音頻對象。如果選擇了多個圖像對象，則電子裝置可同時輸出與選擇的多個圖像對象相應的多個音頻對象的混合。根據(jù)本發(fā)明的另一實施例，如果在整個音頻或多個音頻對象輸出期間選擇了特定圖像對象，則電子裝置可將與選擇的圖像對象相應的音頻對象靜音。
[0135] 圖16示出根據(jù)本發(fā)明實施例的在電子裝置中用于將圖像和音頻進行組合的功能塊的結構。
[0136] 參照圖16,電子裝置包括用于接收和分析圖像的圖像分析單元1610以及用于接收和分析音頻的音頻分析單元1620。
[0137] 圖像分析單元1610從拍攝的圖像提取并分離圖像對象(諸如，角色、物、面部和壁紙)，并識別每個圖像對象的一個或多個主要屬性。例如，主要屬性包括對象在圖像內的位置、在物/區(qū)域之間的相對位置或狀態(tài)（phase)、形狀、顏色、說話者相關信息和元數(shù)據(jù)。通過發(fā)送并在存儲器中存儲識別的對象或區(qū)域的主要屬性，在發(fā)生針對包括在圖像中的圖像對象的信息詢問的情況下，圖像分析單元1610使處理器能夠從存儲器接收與信息詢問相應的至少一個屬性信息并處理接收的屬性信息。信息詢問包括例如圖像、音頻、通過用戶輸入接口的坐標或區(qū)域的指定以及通過關鍵字的詢問。
[0138] 圖像分析單元1610可執(zhí)行圖像處理用于圖像對象的每次提取。例如，圖像處理包括預處理、圖像分割、特征提取或從輸入圖像進行識別。換句話說，可采用諸如樣式匹配和機器視覺的技術。
[0139] 圖像分析單元1610可通過使用諸如二值化、灰度轉換或顏色轉換的屬性轉換技術來移除不必要的信息或加速處理速度。例如，在處理速度方面，使用二值的黑/白圖像而不是顏色圖像以從圖像提取特定物的形狀是更有利的。圖像分析單元1610可執(zhí)行例如傅里葉變換、離散余弦轉換或小波轉換的簡化高帶濾波和低帶濾波的數(shù)字圖像轉換技術，從而簡化處理圖像增強和目標區(qū)域提取。
[0140] 圖像分析單元1610可分析圖像內的像素的信息以執(zhí)行諸如模糊、加銳、擴展、收縮、噪聲去除、并行化和亮度調節(jié)的圖像增強技術。由于此，諸如圖像中的物的形狀、位置和顏色的主要屬性的損失減少或者主要屬性被恢復為原始，簡化了特征提取和識別。圖像分析單元1610可通過例如邊界提取、輪廓跟蹤、特征提取、輪廓提取、顏色分離和區(qū)域顏色算法來檢測數(shù)字圖像的尺寸或特定區(qū)域的尺寸以及物的外形。尋找數(shù)字圖像的輪廓、區(qū)分顏色和樣式并確定材料觸覺對于圖像提取、區(qū)分和識別會是有用的。圖像分析單元1610可分析多個圖像用于運動和手勢識別以獲得不同圖像之間的差圖像，并調查物的運動樣式或變化以確定例如運動、移動或手勢。
[0141] 作出以下描述用于圖像對象的提取和用戶輸入的圖像對象的區(qū)域的設置。通過應用前述的圖像處理技術，圖像分析單元1610可提取諸如角色的面部區(qū)域、對象的輪廓和物 (諸如運動的物）的區(qū)域的信息。圖像分析單元1610在存儲器中存儲諸如相應的圖像對象的區(qū)域范圍、坐標、邊界線數(shù)據(jù)和輪廓數(shù)據(jù)的信息。
[0142] 作出以下描述用于說話者識別和注冊。在預注冊的說話者中，圖像分析單元1610 可通過圖像的面部識別從預注冊的說話者數(shù)據(jù)中確定一個或多個候選。例如，圖像分析單元1610可將面部圖像數(shù)據(jù)與注冊的說話者面部圖像數(shù)據(jù)進行比較。在圖像中的面部識別之后，圖像分析單元1610可將相應的識別的信息項(例如，特征信息、樣式信息或面部圖像構成物的布置信息）與預注冊的說話者數(shù)據(jù)項進行比較以確定識別的信息項與預注冊的說話者數(shù)據(jù)項之間的相似度，并搜索相似度等于或大于閾值的至少一個候選。
[0143] 通過分析說話者的特征，圖像分析單元1610可識別例如年齡和性別。說話者的特征包括諸如說話者的面部、身體形狀、服裝顏色和配飾形式的信息。圖像分析單元1610可識別嘴型的運動，產生來自預覽圖像的手勢，并確定諸如語音相關的說話者的位置的說話者相關信息以及例如區(qū)域信息和面部圖像區(qū)域。
[0144] 作出以下描述用于圖像的元數(shù)據(jù)的分析。通過分析在圖像拍攝時一起存儲或感測的元數(shù)據(jù)，圖像分析單元1610可獲得附加信息。例如，在JPEG文件中，圖像分析單元1610 可獲得諸如以JFIF或EXIF存儲的文件的創(chuàng)建日期、位置、縮略圖、分辨率和圖像捕捉裝置的位置的補充數(shù)據(jù)。所述位置包括電子裝置的位置、角度或傾斜度。例如，圖像分析單元 1610可通過諸如全球定位系統(tǒng)（GPS)、數(shù)字羅盤、陀螺儀傳感器、加速度傳感器、水平傳感器、網絡蜂窩信息接收器、嵌入式數(shù)字手表和光學傳感器的傳感器裝置一起接收諸如圖像拍攝的地點、時間、亮度和圖像捕捉裝置的姿態(tài)的感測信息。
[0145] 作出以下描述用于圖像標簽設置。另外，圖像分析單元1610可配置與區(qū)域有關的標簽信息。例如，標簽信息包括區(qū)域、物或角色ID、坐標信息、說話者、年齡和性別。
[0146] 作出以下描述用于面部識別，所述面部識別包括諸如面部區(qū)域分離、面部特征提取、面部識別、性別和年齡識別的操作。為了分離面部區(qū)域，圖像分析單元1610首先主要通過使用邊緣圖像以及亮度和顏色來確定給定圖像中存在或不存在面部。例如，圖像分析單元1610在邊緣圖中應用諸如日食形狀的模板以設置頭部區(qū)域，并檢查設置的區(qū)域中的眼、嘴和鼻的邊緣圖像。圖像分析單元1610可隨后使用通過提取頭部和身體的邊緣并保持眼、鼻和嘴的提取位置來分析特征的上下圖像插值方法。
[0147] 為了提取面部特征，圖像分析單元1610使用例如Hough變換、矩陣的單值分解方法以及眼、鼻和嘴的模板的匹配技術來提取邊緣、顏色和亮度信息。為了識別面部，可使用基于Karhunen-Loeve (KL)變換的統(tǒng)計方法、基于特征的面部構成元素幾何分析、Eigen面部技術、Fisher的線性判別式（FLD)技術、支持矢量機器（SVM)、模糊神經網絡技術、小波彈性匹配、邊緣投射簡檔和三維圖像分析技術。通過使用前述的技術，圖像分析單元1610確定預注冊的圖像與新輸入的圖像的相關信息之間的相似度。
[0148] 通過面部識別甚至可估計性別或年齡。例如，圖像分析單元1610可對檢測的面部區(qū)域圖像進行標準化，并通過針對標準化的面部區(qū)域圖像的SVM執(zhí)行性別估計功能。在本發(fā)明中，可使用已知的性別識別技術，諸如在用于從面部圖像的性別識別的幾個分類算法的比較，Sakarkaya.M等，智能工程系統(tǒng)，2012IEEE第16次國際會議，2012,第97?101頁中所公開的。
[0149] 圖像分析單元1610可經由回歸分析或方差分析通過以下操作來估計年齡：對檢測的面部區(qū)域圖像進行標準化，從標準化的面部區(qū)域圖像構造面部區(qū)域內的構成元素的輸入矢量，并隨后將輸入矢量投射到先前存儲的年齡流形（manifold)空間以產生特征矢量。在本發(fā)明中，可使用已知年齡估計技術，諸如，在以下文獻中所公開的那些技術：Y.Fu， Y. Xu和T. S. Huang，"通過面部圖像的流形分析以及針對年齡特征的回歸來估計人類年齡"，Proc. IEEE conf.多媒體展覽會，2007,第 1383 ?1386 頁，G. Guo, Y. Fu，T. S. Huang 和 C. Dyer的論文，"用于人類年齡估計的本地調節(jié)魯棒回歸"，在計算機視覺的應用的IEEE研討會發(fā)表，2008, A. Lanitis，C. Draganova和C. Christodoulou，"比較用于自動年齡估計的不同分類器，'，IEEE Trans. Syst.，Man，Cybern. B，Cybern.，vol. 34, no. 1，第 621 ?628 頁， 2004 年二月，Y.H.Kwon 和 N.da Vitoria Lobo. "從面部圖像的年齡分類"，CVIU，74:1-21， 1999，A. Lanitis，C. Draganova和C. Christodoulou，"比較用于自動年齡估計的不同分類器"，IEEE Trans. SMC B，34(l):621-8,2004, N.Ramanathan 和 R.Chellappa，"跨越年齡發(fā) 展的面部驗證"，關于圖像處理的IEEE Trans.，15(11) :3349-3361，2006,以及S.K. Zhou， B. Georgescu，X. Zhou 和 D. Comaniciu，"使用促進方法的基于圖像的回歸"ICCV，1:541-548, 2005。
[0150] 音頻分析單元1620從輸入或記錄的音頻信號提取至少一個音頻對象，并分析所述至少一個音頻對象的特征。例如，音頻分析單元1620從音頻信號提取語音信號。音頻分析單元1620分析諸如頻帶特征、聲波或頻率樣式、音高、接拍、音調、白噪聲、捆綁時間期間、音量、波長、聲調、口音和發(fā)音組合的信息。音頻分析單兀1620可基于分析的信息來提供音頻處理功能，諸如說話者信息識別、背景聲音分離和噪聲去除。音頻分析單元1620可提供分析或記錄音頻數(shù)據(jù)的元數(shù)據(jù)的功能，并可另外支持語音識別。
[0151] 作出以下描述用于背景噪聲去除。音頻分析單元1620從通過麥克風輸入的音頻數(shù)據(jù)去除與噪聲相應的音頻。例如，當通過音頻輸入裝置(諸如麥克風）輸入了在相機拍攝產生的快門聲時，音頻分析單元1620可去除快門聲。通過在電子裝置中播放與快門聲相應的聲音源或機械按壓快門按鈕來產生快門聲。當通過播放聲音源產生快門聲時，音頻分析單元1620獲知快門聲發(fā)生的時間以及快門聲的信號樣式。因此，音頻分析單元1620可通過噪聲去除技術或諸如回聲去除的技術來去除快門聲。當通過機械操作產生快門聲時，音頻分析單元1620在存儲器中存儲機械聲的音頻信號的樣式，并當快門按鈕被按壓時響應于相應的輸入信號從通過音頻輸入裝置輸入的音頻信號去除相應的機械聲的音頻信號。例如，音頻分析單元1620可在從當包括快門聲時記錄的音頻中搜索并去除快門聲的音頻信號樣式的后處理方法中去除快門聲。為了使快門聲或機械聲音不能被輸入或存儲在音頻輸入裝置中，音頻分析單元1620可感測快門聲，并在產生快門聲時停止記錄音頻?？蛇x擇地，當產生快門聲時，音頻分析單元1620可不記錄快門聲所屬的音高區(qū)域的聲音。
[0152] 音頻分析單元1620可去除或提取背景聲音。例如，背景聲音表現(xiàn)為昆蟲的鳴叫聲、汽車行駛聲、包噪聲、海浪聲或歌曲文件的音樂伴奏?？筛鶕?jù)諸如專有（peculiar)樣式或頻帶的參考來分離或去除背景聲音。例如，音頻分析單元1620可使用通過立體聲記錄語音和音樂的所有記錄（AR)中的頻域的能量差分信息僅提取音樂記錄（MR)，或可僅提取語音聲音源。可應用各種技術。如上所述，音頻分析單元1620可分離至少一個語音，或從輸入音頻信號去除背景聲音或音樂，或從音頻信號分離和提取背景聲音或音樂。
[0153] 作出以下描述用于元數(shù)據(jù)分析和輸入。在MP3文件中，存在諸如ID3標簽的元數(shù) 據(jù)區(qū)域，因此，通過分析元數(shù)據(jù)，音頻分析單元1620可獲得各種信息?？蛇x擇地，音頻分析單元1620可將單獨的元數(shù)據(jù)信息與不具有原數(shù)據(jù)區(qū)域的音頻數(shù)據(jù)進行關聯(lián)。例如，音頻分析單元1620可將元數(shù)據(jù)添加到音頻數(shù)據(jù)以產生一個文件或比特流?？蛇x擇地，可將諸如可訪問單獨的詳細元數(shù)據(jù)的統(tǒng)一資源定位符（URL)和數(shù)據(jù)庫的標識符的參考信息映射到元數(shù) 據(jù)區(qū)域。通過使用參考信息，音頻分析單元1620可編寫或參考單獨的元數(shù)據(jù)信息。元數(shù)據(jù) 包括各種信息，諸如產生時間、播放長度、作曲家和專輯圖像，包括在元數(shù)據(jù)中的信息可相應于圖像上的預定的圖像對象。
[0154] 例如，音頻分析單元1620可將說話者的面部圖像信息編碼到專輯圖像元數(shù)據(jù)區(qū) 域。如果在拍攝的圖像上選擇了人臉區(qū)域，則音頻分析單元1620可將相應的人的面部圖像與存在于各種音頻數(shù)據(jù)中（例如，在各種音頻文件、各種音頻軌和各種音頻比特流中）的專輯圖像區(qū)域的說話者的面部圖像信息進行比較，并搜索和播放具有與所述人相應的說話者面部圖像的至少一個音頻數(shù)據(jù)。與圖像的元數(shù)據(jù)一樣，音頻的元數(shù)據(jù)包括位置和時間信息。包括在元數(shù)據(jù)中的信息可隨后與圖像數(shù)據(jù)組合并被不同地用于信息搜索和詢問。
[0155] 作出以下描述用于針對語音信號的說話者識別以及說話者相關信息輸入。音頻分析單元1620可通過語音信號分析識別一個或更多個說話者相關信息。說話者識別與識別語音信號中的字面含義不同。音頻分析單元1620可識別每個說話者，或識別說話者所屬的群組。在說話者識別中，音頻分析單元1620可使用預注冊到存儲器的說話者數(shù)據(jù)庫來分析語音信號的特征。如果相似度等于或大于閾值，則音頻分析單元1620可從說話者數(shù)據(jù)庫中減去一個或多個候選說話者。通過使用一個或多個語音信號特征信息，音頻分析單元1620 可確定與數(shù)據(jù)庫中的語音信號特征信息的匹配率。在群識別中，音頻分析單元1620可分析語音信號以確定諸如發(fā)出相應的語音的說話者的年齡和性別的信息。識別每個說話者可需要說話者識別。通過先前分析和在存儲器中存儲說話者語音音頻信號的特征，音頻分析單元1620可確定與分析后來的輸入語音音頻信號的特征的結果的相似度是否高。例如，在做出電話呼叫時，音頻分析單元1620可收集對方的語音信號特征。換句話說，音頻分析單元 1620可當用戶通常做出電話呼叫時記錄呼叫語音并使用記錄的語音作為說話者分析的基礎數(shù)據(jù)。在識別說話者中，音頻信號分析不是必需的。例如，通過將通過圖像識別獲得的說話者相關特征與音頻信號特征進行比較，音頻分析單元1620可識別說話者。通過識別說話者的語音以解釋字面含義，音頻分析單元1620可獲得說話者或區(qū)域中其他人的信息。
[0156] 作出以下描述用于方向/方向性音頻識別和處理。當電子裝置具有能夠確定方向的語音輸入裝置(諸如，方向性麥克風或者兩個或多個麥克風）時，音頻分析單元1620可使用音頻的方向性來處理音頻信號。例如，在拍攝視頻時，由于多個麥克風被布置為面向前面和后面，故前面和后面的音頻可以是所有輸入，并且音頻分析單元1620可確定聲音源的方向從哪個方向發(fā)出。在另一示例中，當兩個或多個麥克風根據(jù)參考被分離地布置并被布置在電子裝置的一個表面上時，音頻分析單元1620可通過分析在相應方向的音頻信號輸入的音量、輸入事件和樣式差來更詳細地識別音頻產生的方向。例如，當在相機鏡頭面向的方向產生音頻時，音頻分析單元1620可確定說話者所處于的方向，諸如，左、由、上、下、左上、右上、右下和左下。在通過圖像分析將方向性信息與說話者位置信息關聯(lián)到一起時，可更詳細地準確地指定說話者相關信息。音頻分析單元1620可通過方向性信息分析來放大目標音頻信號。例如，當幾個聲音源被同時輸入或者部分地重疊并輸入時，音頻分析單元1620 可通過方向性信息從其它聲音源放大或分離特定說話者的語音音頻。
[0157] 音頻分析單元1620可通過處理音頻數(shù)據(jù)來確定語音輸入順序或時間并提供各種功能。例如，可提供音頻播放順序、說話者分離和與圖像數(shù)據(jù)的關聯(lián)。
[0158] 圖17示出根據(jù)本發(fā)明實施例的在電子裝置中用于將圖像和音頻進行組合的操作過程。
[0159] 參照圖17,在步驟1701，電子裝置收集圖像和音頻。例如，電子裝置可拍攝圖像，并存儲在基于圖像拍攝的快門輸入時間點定義的持續(xù)時間期間輸入的音頻?？蛇x擇地，電子裝置可使用視頻拍攝功能收集圖像和音頻。在這種情況下，電子裝置從構成視頻的視頻軌內的幀中提取至少一個圖像，并從音頻軌收集音頻。電子裝置可從音頻中移除預定時間段或更長的捆綁持續(xù)時間?？蛇x擇地，電子裝置可執(zhí)行音頻記錄，并存儲在音頻記錄的持續(xù) 時間內的特定時間點捕捉的圖像。
[0160] 電子裝置進行到步驟1703,并分析圖像。電子裝置從通過圖像分析收集的圖像提取至少一個圖像對象。電子裝置從收集的圖像提取并分離圖像對象(諸如，角色、物、面部和背景)，并識別每個圖像對象的一個或多個主要屬性。例如，主要屬性包括圖像內的對象的位置、物/區(qū)域之間的相對位置或狀態(tài)、形狀、顏色、說話者相關信息或元數(shù)據(jù)。為了有效地提取圖像對象，電子裝置還可執(zhí)行各種圖像處理，諸如通過面部識別來識別角色，以及基于說話者的預設特征信息來識別圖像中顯示的說話者。電子裝置可估計說話者的性別和年齡。電子裝置可通過傳感器裝置獲得用于以下相應的關系確定的補充數(shù)據(jù)。
[0161] 電子裝置進行到步驟1705,并分析音頻。電子裝置從通過音頻分析收集的音頻提取至少一個音頻對象。為此，電子裝置從音頻信號提取語音信號，并分析諸如語音信號的頻帶、聲波、頻率的樣式的特征。為了有效執(zhí)行音頻對象提取，電子裝置可執(zhí)行諸如噪聲去除、快門聲去除和背景聲去除的處理。電子裝置可從音頻文件的元數(shù)據(jù)獲得用于以下相應關系確定的補充數(shù)據(jù)。當能夠使用麥克風確定聲音源的方向性時，電子裝置可確定音頻對象的方向性，或者放大或分離特定音頻對象?？蛇x擇地，電子裝置可捆綁作為上層特征的多個特征，以將多個音頻對象定義為一個組。
[0162] 在分析圖像和音頻之后，電子裝置進行到步驟1707并確定最后一個圖像對象與至少一個音頻對象之間的相應關系。例如，電子裝置可基于面部識別和波形分析來確定相應關系。在示例中，電子裝置將特征彼此相應的圖像對象和音頻對象映射。在另一示例中，電子裝置可基于目標的運動來確定相應關系。電子裝置通過使用圖像拍攝的預覽屏幕或視頻的視頻軌來識別圖像內目標的運動，并將當運動存在時產生的音頻對象和與目標相應的圖像對象映射。電子裝置還可基于音頻的方向性來確定相應關系。電子裝置將方向彼此一致的圖像對象與音頻對象進行映射。電子裝置可根據(jù)用戶的指定來確定相應關系?？蛇x擇地，電子裝置可根據(jù)圖像對象和音頻對象的相關性來設置在不同時間點產生的圖像對象與音頻對象之間的相應關系。
[0163] 電子裝置進行步驟1709并對組合數(shù)據(jù)集進行編碼，所述組合數(shù)據(jù)集包括圖像數(shù) 據(jù)、音頻數(shù)據(jù)和映射數(shù)據(jù)。例如，圖像數(shù)據(jù)包括圖像本身、圖像對象指定信息、糾正的圖像和用于訪問圖像信息的間接信息，音頻數(shù)據(jù)包括記錄的整個音頻、處理的音頻、至少一個音頻對象、音頻特征信息和用于訪問音頻數(shù)據(jù)的間接信息，映射數(shù)據(jù)包括對象識別信息和相應關系信息。組合數(shù)據(jù)集可分別是圖像數(shù)據(jù)被插入到音頻文件的第一形式、音頻數(shù)據(jù)被插入圖像文件的第二形式、作為圖像數(shù)據(jù)被構造為視頻軌且音頻數(shù)據(jù)被構造為音頻軌的視頻文件的第三形式以及添加圖像文件、音頻文件和映射信息數(shù)據(jù)庫獨立存在的分離映射信息數(shù) 據(jù)的第四形式。
[0164] 本發(fā)明的上面與圖17相關的所述方法可被提供為一個或多個軟件模塊中的一個或多個指令或存儲在包括便攜式終端的電子裝置中的計算機程序。
[0165] 圖18示出根據(jù)本發(fā)明實施例的在電子裝置中用于播放圖像和音頻的組合數(shù)據(jù)集的操作過程。
[0166] 參照圖18,在步驟1801，電子裝置顯示與音頻組合的圖像。電子裝置可顯示表示圖像與音頻組合的Π 。電子裝置可區(qū)分并顯示與圖像內的音頻對象映射的至少一個圖像對象?？蛇x擇地，電子裝置還可顯示映射到至少一個圖像對象的音頻對象輸出按鈕。
[0167] 在圖像顯示狀態(tài)中，電子裝置進行步驟1803并確定至少一個圖像對象是否被選擇。所述選擇可被定義為諸如觸摸、點擊或拖拽的事件。在另一示例中，所述選擇可被定義為針對相應圖像對象的名稱或標識符的語音輸入或字符輸入。可選擇地，多個圖像對象的選擇可被定義為多觸摸或區(qū)域選擇。
[0168] 如果選擇了至少一個圖像對象，則電子裝置進行步驟1805并搜索映射到選擇的至少一個圖像對象的至少一個音頻對象。換句話說，電子裝置基于映射數(shù)據(jù)搜索所述至少一個音頻對象。例如，電子裝置可參照音頻文件的元數(shù)據(jù)、字幕信息和存儲在單獨字段中的信息來搜索音頻文件的音頻數(shù)據(jù)中的映射到圖像對象的持續(xù)時間。電子裝置可參照圖像文件的元數(shù)據(jù)、存儲在單獨字段中的信息來搜索音頻數(shù)據(jù)中的映射到圖像對象的音頻對象。電子裝置可驗證單獨的相應關系數(shù)據(jù)庫中的與圖像有關的記錄，并搜索映射到在所述記錄中選擇的圖像對象的音頻對象。電子裝置可搜索與在視頻的音頻軌中選擇的圖像對象相應的部分。
[0169] 電子裝置進行步驟1807并輸出搜索的至少一個音頻對象。如果選擇了多個圖像對象，則電子裝置可同時或順序地輸出與多個圖像對象映射的多個音頻對象。在順序輸出時，所述多個音頻對象可部分重疊，并且所述多個音頻對象的輸出順序可遵循預指定的順序或廣生順序。
[0170] 本發(fā)明的上面與圖18相關的所述方法可被提供為一個或多個軟件模塊中的一個或多個指令或存儲在包括便攜式終端的電子裝置中的計算機程序。
[0171] 圖19示出根據(jù)本發(fā)明實施例的電子裝置的結構。本發(fā)明可被實現(xiàn)為包括便攜式終端(諸如，智能電話和移動電信終端)的電子裝置。以下，便攜式終端被用作電子裝置的示例。
[0172] 電子裝置包括存儲器1910、處理器單元1920、輸入輸出系統(tǒng)1930、音頻子系統(tǒng) 1940、感測子系統(tǒng)1950和相機子系統(tǒng)1960。存儲器1910可被構造為多個。
[0173] 存儲器1910存儲例如至少一個軟件、微代碼和設置信息。存儲器1910包括至少一個高速隨機存取存儲器、非易失性存儲器、至少一個光存儲裝置或閃存(例如，與非（NAND) 存儲器、與或（N0R)存儲器)。存儲在存儲器1910中的軟件構成元素包括操作系統(tǒng)（0S)模塊1911、圖形模塊1912、Π 模塊1913、相機模塊1914、圖像/音頻組合應用模塊1915和圖像/音頻組合數(shù)據(jù)1916。由于模塊或軟件構成元素可呈現(xiàn)為一組指令，故模塊還被稱為"指令集"或"程序"。包括執(zhí)行根據(jù)本發(fā)明實施例的方法的指令的至少一個模塊可存儲在存儲器1910中。
[0174] 0S模塊1911包括控制一般系統(tǒng)操作的至少一個軟件構成元素。例如，0S模塊1911 可以是嵌入式操作系統(tǒng)，諸如 WINDOWS、LINUX、Darwin、RTXC、UNIX、0S X、VxWorks、Android 和iOS。例如，OS模塊1911控制一般系統(tǒng)操作控制，諸如存儲器管理和控制、存儲器硬件控制和管理以及電源控制和管理。0S模塊1911進行控制以簡化至少一個硬件元件與軟件構成元素之間的通信。圖形模塊1912包括用于在觸摸屏1933上提供和顯示圖形的至少一個軟件構成元素。觸摸屏1933可用作顯示單元。圖形包括文本、web頁、圖標、數(shù)字圖像、視頻、動畫。Π 模塊1913包括用于提供Π 的至少一個軟件構成元素。例如，Π 模塊1913控制在何種條件下執(zhí)行Π 狀態(tài)的改變的Π 狀態(tài)被改變的方式。相機模塊1914包括用于執(zhí) 行相機相關處理和功能的至少一個軟件構成元素。
[0175] 圖像/音頻組合應用模塊1915包括用于根據(jù)本發(fā)明實施例組合圖像和音頻的至少一個軟件構成元素。換句話說，圖像/音頻組合應用模塊1915包括如圖17中的用于產生組合數(shù)據(jù)集的軟件構成元素和如圖18中的用于播放組合數(shù)據(jù)集的軟件構成元素。圖像 /音頻組合應用模塊1915包括配置電子裝置如參照圖1至圖16所述進行操作的至少一個軟件構成元素。圖像/音頻組合應用模塊1916包括根據(jù)本發(fā)明的實施例產生的組合數(shù)據(jù) 集。例如，圖像/音頻組合數(shù)據(jù)1916包括圖2的數(shù)據(jù)?？扇鐖D6中所示來構造圖像/音頻組合數(shù)據(jù)1916。
[0176] 除了前述模塊1911至1916之外，存儲器1910還包括另外的模塊?？蛇x擇地，前述模塊1911至1916中的部分可被排除。
[0177] 處理器單元1920包括存儲器接口 1921、處理器1922和外圍接口 1923。處理器單元1920稱為"處理器"。存儲器接口 1921、處理器1922和外圍接口 1923均可以是單獨的構成元件或包括在至少一個集成電路中。
[0178] 處理器1922包括至少一個硬件芯片。通過執(zhí)行軟件模塊，處理器1922通過軟件模塊執(zhí)行實現(xiàn)電子裝置的功能。具體地，處理器1922與存儲在存儲器1910中的軟件模塊相互協(xié)作以實現(xiàn)本發(fā)明的實施例。處理器1922包括至少一個數(shù)據(jù)處理器和圖像處理器。數(shù) 據(jù)處理器和圖像處理器可構成為單獨的硬件。處理器1922可包括執(zhí)行不同功能的多個處理器。
[0179] 存儲器接口 1921在存儲器1910與處理器1922之間提供數(shù)據(jù)和控制信號的移動路徑。例如，存儲器接口 1921提供用于訪問存儲器1910的接口。外圍接口 1923將電子裝置的輸入輸出子系統(tǒng)1930和至少一個外圍裝置連接到處理器1921和存儲器1910。
[0180] 輸入輸出系統(tǒng)1930包括觸摸屏控制器1931、其它輸入控制器1932、觸摸屏1933 和其它輸入/控制裝置1934。
[0181] 觸摸屏控制器1931可組合到觸摸屏1933。例如，觸摸屏控制器1931和觸摸屏 1933可通過不僅使用用于確定觸摸屏1933上的一個或多個接觸點的電容、電阻、紅外和表面聲波技術，還使用包括例如其它接近傳感器陣列或其它元件的任何多觸摸感測技術，來檢測接觸和運動或接觸和運動的中斷。
[0182] 其它輸入控制器1932可以與其它輸入/控制裝置1934組合。其它輸入/控制裝置1934包括用于音量控制的至少一個上/下按鈕。上/下按鈕可具有例如推按鈕或鎖定按鈕、搖桿切換、拇指滾輪、撥盤、操縱桿和指點裝置(諸如，觸控筆）的形式。
[0183] 觸摸屏1933提供電子裝置與用戶之間的輸入/輸出接口。例如，觸摸屏1933將用戶的觸摸輸入發(fā)送到電子裝置。觸摸屏1933是用于將電子裝置的輸出顯示給用戶的媒介。也就是說，觸摸屏1933按照文本、圖形、視頻和它們的組合的形式將視覺輸出顯示給用戶。
[0184] 觸摸屏1933可使用各種顯示裝置。例如，觸摸屏1933包括但不限于液晶顯示器 (IXD)、發(fā)光二極管（LED)、發(fā)光聚合物顯示器（LPD)、有機發(fā)光二極管（0LED)、有源矩陣有機發(fā)光二極管（AM0LED)或柔性LED (FLED)。
[0185] 音頻子系統(tǒng)1940可被組合到揚聲器1941和麥克風1942以控制音頻流的輸入和輸出，諸如，語音識別、語音復制、數(shù)字記錄和電話功能。也就是說，音頻子系統(tǒng)1940通過揚聲器1941和麥克風1942與用戶進行通信。音頻子系統(tǒng)1940通過處理器單元1920的外圍接口 1923接收數(shù)據(jù)流，將接收的數(shù)據(jù)流轉換為電信號，并將轉換的電信號發(fā)送到揚聲器 1941。揚聲器1941將電信號轉換為人類可聽聲波并輸出轉換的聲波。
[0186] 麥克風1942將從人或其它聲音源發(fā)送的聲波轉換為電信號。音頻子系統(tǒng)1940從麥克風1942接收轉換的電信號。音頻子系統(tǒng)1940將接收的電信號轉換為音頻數(shù)據(jù)流，并將轉換的音頻數(shù)據(jù)流發(fā)送到外圍接口 1923。音頻子系統(tǒng)1940包括可拆卸耳機、頭戴式耳機或耳麥，或者包括用于連接耳機、頭戴式耳機和耳麥的端子。麥克風1942可以是多個，并可被分別布置在電子裝置的前面和后面。
[0187] 感測子系統(tǒng)1950檢測外部刺激。感測子系統(tǒng)1950包括加速傳感器、陀螺儀傳感器、光學傳感器、地磁傳感器、重力傳感器、溫度傳感器、生物計量傳感器或位置傳感器。GPS 模塊可用作位置傳感器。感測子系統(tǒng)1950感測例如運動、光線、傾斜和方向，并提供指示感測結果的電信號。感測子系統(tǒng)1950還可包括用于解釋指示運動的電信號的塊。
[0188] 相機子系統(tǒng)1960可執(zhí)行圖像拍攝和視頻記錄的功能。相機子系統(tǒng)1960包括圖像傳感器(未示出）和鏡頭(未示出）。圖像傳感器可以是電荷耦合器件（CCD)或互補金屬氧化物半導體（CMOS)。例如，相機子系統(tǒng)1960通過圖像傳感器來識別通過鏡頭輸入的光，并將在圖像傳感器中識別的圖像轉換為數(shù)字數(shù)據(jù)。
[0189] 可通過至少一個流處理、包括專用集成電路（ASIC)的硬件、軟件以及它們的組合來執(zhí)行根據(jù)本發(fā)明的電子裝置的各種功能。
[0190] 圖20示出根據(jù)本發(fā)明實施例的電子裝置的結構。與圖19相比，圖20的電子裝置的結構呈現(xiàn)由硬件模塊來實現(xiàn)由軟件實現(xiàn)的圖像和音頻組合和播放功能的實施例。本發(fā)明可被實現(xiàn)為包括便攜式終端(諸如，智能電話和移動電信終端)的電子裝置。以下，便攜式終端被用作電子裝置的示例。
[0191] 參照圖20，電子裝置包括存儲器2010、處理器單元2020、輸入輸出系統(tǒng)2030、音頻子系統(tǒng)2040、感測子系統(tǒng)2050和相機子系統(tǒng)2060。存儲器2010可被構造為多個。
[0192] 存儲器2010存儲至少一個軟件、微代碼和設置信息。存儲器2010包括至少一個高速隨機存取存儲器、非易失性存儲器、至少一個光存儲裝置或閃存(例如，NAND存儲器、N0R 存儲器)。存儲在存儲器2010中的軟件構成元素包括0S模塊2011、圖形模塊2012、Π 模塊2013、相機模塊2014、圖像/音頻組合數(shù)據(jù)2015。由于模塊或軟件構成元素可呈現(xiàn)為一組指令，故模塊還被稱為"指令集"或"程序"。包括執(zhí)行根據(jù)本發(fā)明實施例的方法的指令的至少一個模塊可存儲在存儲器2010中。
[0193] 0S模塊2011包括控制一般系統(tǒng)操作的至少一個軟件構成元素。例如，0S模塊2011 可以是嵌入式操作系統(tǒng)，諸如 WINDOWS、LINUX、Darwin、RTXC、UNIX、0S X、VxWorks、Android 和iOS。例如，OS模塊2011控制一般系統(tǒng)操作控制，諸如存儲器管理和控制、存儲器硬件控制和管理以及電源控制和管理。0S模塊2011進行控制以簡化至少一個硬件元件與軟件構成元素之間的通信。圖形模塊2012包括用于在觸摸屏2033上提供和顯示圖形的至少一個軟件構成元素。圖形包括例如文本、web頁、圖標、數(shù)字圖像、視頻、動畫。UI模塊2013包括用于提供UI的至少一個軟件構成元素。例如，UI模塊2013控制在何種條件下執(zhí)行UI狀態(tài)的改變的Π 狀態(tài)被改變的方式。相機模塊2014包括用于執(zhí)行相機相關處理和功能的至少一個軟件構成元素。圖像/音頻組合數(shù)據(jù)2015包括根據(jù)本發(fā)明實施例產生的組合數(shù)據(jù) 集。例如，圖像/音頻組合數(shù)據(jù)2015包括圖2的數(shù)據(jù)?？扇鐖D6中所示來構造圖像/音頻組合數(shù)據(jù)2015。
[0194] 除了前述模塊2011至2016之外，存儲器2010還包括另外的模塊?？蛇x擇地，前述模塊2011至2016中的部分可被排除。
[0195] 處理器單元2020包括存儲器接口 2021、處理器2022、外圍接口 2023和圖像/音頻組合模塊2024。處理器單元2020稱為"處理器"。存儲器接口 2021、處理器2022和外圍接口 2023均可以是單獨的構成元件或包括在至少一個集成電路中。
[0196] 處理器2022包括至少一個硬件芯片。通過執(zhí)行軟件模塊，處理器2022通過軟件模塊執(zhí)行實現(xiàn)電子裝置的功能。具體地，處理器2022與存儲在存儲器2010中的軟件模塊相互協(xié)作以實現(xiàn)本發(fā)明的實施例。處理器2022包括至少一個數(shù)據(jù)處理器和圖像處理器。數(shù) 據(jù)處理器和圖像處理器可構成為單獨的硬件。處理器2022可包括執(zhí)行不同功能的多個處理器。
[0197] 圖像/音頻組合模塊2024包括用于根據(jù)本發(fā)明實施例組合圖像和音頻的至少一個功能。換句話說，圖像/音頻組合模塊2024執(zhí)行如圖17中的用于產生組合數(shù)據(jù)集的功能和如圖18中的用于播放組合數(shù)據(jù)集的功能。圖像/音頻組合模塊2024控制電子裝置如參照圖1至圖16所述進行操作。
[0198] 存儲器接口 2021在存儲器2010與處理器2022之間提供數(shù)據(jù)和控制信號的移動路徑。例如，存儲器接口 2021提供用于訪問存儲器2010的接口。外圍接口 2023將電子裝置的輸入輸出子系統(tǒng)2030和至少一個外圍裝置連接到處理器2021和存儲器2010。
[0199] 輸入輸出子系統(tǒng)2030包括觸摸屏控制器2031、其它輸入控制器2032、觸摸屏2033 和其它輸入/控制裝置2034。
[0200] 觸摸屏控制器2031可組合到觸摸屏2033。例如，觸摸屏控制器2031和觸摸屏 2033可通過不僅使用用于確定觸摸屏2033上的一個或多個接觸點的電容、電阻、紅外和表面聲波技術，還使用包括例如其它接近傳感器陣列或其它元件的任何多觸摸感測技術，來檢測接觸和運動或接觸和運動的中斷。
[0201] 其它輸入控制器2032可與其它輸入/控制裝置2034組合，其它輸入/控制裝置 1934包括用于音量控制的至少一個上/下按鈕。上/下按鈕可具有推按鈕或鎖定按鈕、搖桿切換、拇指滾輪、撥盤、操縱桿或指點裝置(諸如，觸控筆）的形式。
[0202] 觸摸屏2033提供電子裝置與用戶之間的輸入/輸出接口。例如，觸摸屏2033將用戶的觸摸輸入發(fā)送到電子裝置。觸摸屏2033是用于將電子裝置的輸出顯示給用戶的媒介。例如，觸摸屏2033將視覺輸出顯示給用戶。觸摸屏2033可按照文本、圖形、視頻和它們的組合的形式被呈現(xiàn)。
[0203] 觸摸屏2033可使用各種顯示裝置。例如，觸摸屏2033包括但不限于液晶顯示器 (LCD)、發(fā)光二極管（LED)、照明功率密度（LPD)、有機LED (0LED)、有源矩陣OLED (AM0LED) 或 FLED。
[0204] 音頻子系統(tǒng)2040可被組合到揚聲器2041和麥克風2042以控制音頻流的輸入和輸出，諸如，語音識別、語音復制、數(shù)字記錄和電話功能。例如，音頻子系統(tǒng)2040通過揚聲器 2041和麥克風2042與用戶進行通信。音頻子系統(tǒng)2040通過處理器單元2020的外圍接口 2023接收數(shù)據(jù)流，將接收的數(shù)據(jù)流轉換為電信號，并將轉換的電信號發(fā)送到揚聲器2041。揚聲器2041將電信號轉換為人類可聽聲波并輸出轉換的聲波。
[0205] 麥克風2042將從人或其它聲音源發(fā)送的聲波轉換為電信號。音頻子系統(tǒng)2040從麥克風2042接收轉換的電信號。音頻子系統(tǒng)2040將接收的電信號轉換為音頻數(shù)據(jù)流，并將轉換的音頻數(shù)據(jù)流發(fā)送到外圍接口 2023。音頻子系統(tǒng)2040包括可拆卸耳機、頭戴式耳機或耳麥，或者包括用于連接耳機、頭戴式耳機和耳麥的端子。麥克風2042可以是多個，并可被分別布置在電子裝置的前面和后面。
[0206] 感測子系統(tǒng)2050檢測外部刺激。感測子系統(tǒng)2050包括加速傳感器、陀螺儀傳感器、光學傳感器、地磁傳感器、重力傳感器、溫度傳感器、生物計量傳感器或位置傳感器。GPS 模塊可用作位置傳感器。感測子系統(tǒng)2050感測運動、光線、傾斜和方向，并提供指示感測結果的電信號。感測子系統(tǒng)2050還可包括用于解釋指示運動的電信號的塊。
[0207] 相機子系統(tǒng)2060可執(zhí)行圖像拍攝和視頻記錄的功能。相機子系統(tǒng)2060包括圖像傳感器(未示出）和鏡頭(未示出）。圖像傳感器可以是電荷耦合器件（CCD)或互補金屬氧化物半導體（CMOS)。例如，相機子系統(tǒng)2060通過圖像傳感器來識別通過鏡頭輸入的光，并將在圖像傳感器中識別的圖像轉換為數(shù)字數(shù)據(jù)。
[0208] 可通過至少一個流處理、包括專用集成電路（ASIC)的硬件、軟件以及它們的組合來執(zhí)行根據(jù)本發(fā)明的電子裝置的各種功能。
[0209] 在一起存儲音頻和圖像中，用戶使用單獨的著作工具按照視頻文件格式來編輯或存儲圖像和音頻，或使用嵌入有相機和麥克風的計算裝置按照視頻格式存儲圖像和音頻。在存儲視頻文件中，僅支持視頻文件播放和搜索，執(zhí)行到圖像的用戶輸入，并且不可呈現(xiàn)根據(jù)此的諸如特定視頻輸出的交互。
[0210] 通過分析和將圖像與音頻彼此關聯(lián)，電子裝置可選擇性地播放與圖像內的圖像對象有關的音頻。例如，電子裝置可播放與圖像捕捉情況有關的音頻，并通過產生能夠與用戶進行交互的媒體來將媒體應用于電子相冊或幻燈片放映。電子裝置可聯(lián)合地提供與各種情況有關的圖像和音頻數(shù)據(jù)。
[0211] 可按照硬件、軟件或硬件和軟件的組合的形式來實現(xiàn)根據(jù)權利要求和說明書中的描述的本發(fā)明的實施例。
[0212] 這樣的軟件可存儲在計算機可讀存儲介質中。計算機可讀存儲介質存儲一個或多個程序(軟件模塊)、包括指令的一個或多個程序，其中，當由電子裝置中的一個或多個處理器執(zhí)行所述一個或多個程序時使電子裝置執(zhí)行本發(fā)明的方法。
[0213] 可按照易失性或非易失性存儲器(例如，如不論可擦寫或可重寫的只讀存儲器 (ROM)的存儲裝置）的形式或者按照存儲器(例如，隨機存取存儲器（RAM)、存儲器芯片、裝置或集成電路）的形式來來存儲這樣的軟件，或者將這樣的軟件存儲在光學或磁可讀介質(例如，緊湊盤（⑶）、數(shù)字視頻盤（DVD)、磁盤或磁帶等）上。將理解，存儲裝置和存儲介質是適合于存儲當被執(zhí)行時實現(xiàn)本發(fā)明的實施例的程序或包括指令的程序的機器可讀存儲器的實施例。實施例提供了包括用于實現(xiàn)如本申請的權利要求書中的任何一個中要求保護的設備或方法的代碼的程序以及存儲這樣的程序的機器可讀存儲器。此外，可經由任何介質(諸如經由有線或無線連接攜帶的通信信號）來電傳送這樣的程序，并且可適合的實施例包括這樣的程序。
[0214] 在前述本發(fā)明的實施例中，根據(jù)實施例按照單個或多個形式來呈現(xiàn)構成元件。然而，本發(fā)明不限于單個或多個構成元件。雖然按照多個的形式來呈現(xiàn)構成元件，但是可按照單個的形式來構造構成元件，雖然按照單個的形式來呈現(xiàn)構成元件，但是可按照多個的形式來構造構成元件。
[0215] 雖然已經參照特定實施例具體地示出并描述了本發(fā)明，但是本領域的普通技術人員將理解的是，在不脫離由權利要求限定的本發(fā)明的精神和范圍的情況下，可在形式和細節(jié)上做出各種改變。
【權利要求】
1. 一種電子裝置中的方法，所述方法包括：顯示圖像；當選擇了圖像內的第一圖像對象時，輸出與第一圖像對象相應的第一音頻對象；以及當選擇了圖像內的第二圖像對象時，輸出與第二圖像對象相應的第二音頻對象。
2. 如權利要求1所述的方法，其中，顯示圖像的步驟包括：顯示通知圖像和音頻已經彼此組合的用戶界面。
3. 如權利要求1所述的方法，其中，顯示圖像的步驟包括：在圖像內顯示第一圖像對象和第二圖像對象，使得第一圖像對象和第二圖像對象能夠區(qū)別于圖像的剩余部分。
4. 如權利要求1所述的方法，其中，顯示圖像的步驟包括：顯示用于命令與第一圖像對象相應的第一音頻對象的輸出的用戶界面。
5. 如權利要求1所述的方法，還包括：進入被定義為用于音頻對象刪除的模式；以及當選擇了第一圖像對象時，刪除與第一圖像對象相應的第一音頻對象。
6. 如權利要求1所述的方法，還包括：當分割圖像的一部分時，分割與包括在分割的圖像中的至少一個圖像對象相應的至少一個音頻對象。
7. 如權利要求1所述的方法，還包括：如果同時選擇了第一圖像對象和第二圖像對象，則同時輸出第一音頻對象和第二音頻對象。
8. 如權利要求1所述的方法，還包括：如果同時選擇了第一圖像對象和第二圖像對象，則依次輸出第一音頻對象和第二音頻對象。
9. 如權利要求1所述的方法，其中，輸出第一音頻對象的步驟包括：在圖像的元數(shù)據(jù)、被定義為用于圖像內的音頻數(shù)據(jù)的字段以及映射信息數(shù)據(jù)庫中的一個中搜索與第一圖像對象相應的音頻對象。
10. -種電子裝置的方法，所述方法包括：收集圖像和音頻；基于從圖像提取的至少一個圖像對象和從音頻提取的至少一個音頻對象，確定所述至少一個圖像對象與所述至少一個音頻對象之間的相應關系；以及存儲包括指示圖像的圖像數(shù)據(jù)、指示音頻的音頻數(shù)據(jù)和指示相應關系的映射數(shù)據(jù)的組合數(shù)據(jù)集。
11. 如權利要求10所述的方法，其中，通過拍攝圖像和記錄基于圖像拍攝的快門輸入時間點而定義的持續(xù)時間的音頻，或通過記錄音頻和在音頻記錄持續(xù)時間內的特定時間點拍攝圖像，或通過拍攝視頻，來收集圖像和音頻。
12. 如權利要求10所述的方法，還包括：提取圖像上的指示特定對象或特定運動的閉環(huán)區(qū)域作為一個圖像對象。
13. 如權利要求10所述的方法，還包括：識別圖像中的角色的面部；將圖像中識別的面部與角色的預注冊的面部圖像進行比較；以及確定具有大于或等于閾值的相似度的角色。
14. 如權利要求10所述的方法，還包括：識別圖像中的角色的面部；通過分析圖像來確定角色的特征，其中，所述特征包括性別或年齡。
15. 如權利要求10所述的方法，還包括：從音頻去除靜音持續(xù)時間、噪聲或背景快門聲。
16. 如權利要求10所述的方法，還包括：從音頻分離說話者的語音信號。
17. 如權利要求16所述的方法，其中，分離說話者的語音信號的步驟包括：從音頻提取語音信號；以及通過將說話者相關特征與語音信號的特征進行比較來識別每個說話者的語音信號。
18. 如權利要求17所述的方法，其中，通過圖像的分析、在電話呼叫時收集的音頻信號的分析、通過語音識別的字面含義的解釋或方向確定來確定說話者相關特征。
19. 如權利要求16所述的方法，其中，分離說話者的語音信號的步驟包括：從音頻提取多個語音信號；以及根據(jù)聲音源的方向來分離多個語音信號。
20. 如權利要求10所述的方法，其中，確定相應關系的步驟包括：將具有與第一圖像對象的特征相應的特征的音頻對象映射到第一圖像對象。
21. 如權利要求10所述的方法，其中，確定相應關系的步驟包括：將在第一圖像對象正在運動的同時輸入的音頻對象映射到第一圖像對象。
22. 如權利要求10所述的方法，其中，確定相應關系的步驟包括：確定所述至少一個音頻對象的聲音源的方向；以及將以下音頻對象映射到第一圖像對象，其中，所述音頻對象與第一圖像對象的方向具有等于或大于閾值的方向相似度。
23. 如權利要求10所述的方法，其中，確定相應關系的步驟包括：顯示用于設置相應關系的用戶界面；以及根據(jù)用戶的命令來確定相應關系。
24. 如權利要求10所述的方法，其中，確定相應關系的步驟包括：確定從在不同時間點產生的圖像和音頻提取的所述至少一個圖像對象與所述至少一個音頻對象之間的組合關系。
25. 如權利要求10所述的方法，其中，組合數(shù)據(jù)集是以下形式之一：圖像數(shù)據(jù)被插入到音頻文件的第一形式、音頻數(shù)據(jù)被插入到圖像文件的第二形式、作為圖像數(shù)據(jù)被構造為視頻軌且音頻數(shù)據(jù)被構造為音頻軌的視頻文件的第三形式以及添加圖像文件、音頻文件和映射信息數(shù)據(jù)庫在其中獨立存在的分離映射信息數(shù)據(jù)庫的第四形式。
26. -種電子裝置，包括：顯示單元，被配置用于顯示圖像；以及處理器，被配置用于當選擇了圖像內的第一圖像對象時輸出與第一圖像對象相應的第一音頻對象，并當選擇了圖像內的第二圖像對象時輸出與第二圖像對象相應的第二音頻對象。
27. 如權利要求26所述的裝置，其中，顯示單元顯示通知圖像和音頻已經彼此組合的用戶界面。
28. 如權利要求26所述的裝置，其中，顯示單元在圖像內顯示第一圖像對象和第二圖像對象，使得第一圖像對象和第二圖像對象能夠區(qū)別于圖像的剩余部分。
29. 如權利要求26所述的裝置，其中，顯示單元顯示用于命令與第一圖像對象相應的第一音頻對象的輸出的用戶界面。
30. 如權利要求26所述的裝置，其中，處理器進入被定義為用于音頻對象刪除的模式，并當選擇了第一圖像對象時刪除與第一圖像對象相應的第一音頻對象。
31. 如權利要求26所述的裝置，其中，當分割圖像的一部分時，處理器分割與包括在分割的圖像中的至少一個圖像對象相應的至少一個音頻對象。
32. 如權利要求26所述的裝置，其中，如果同時選擇了第一圖像對象和第二圖像對象，則處理器進行控制以同時輸出第一音頻對象和第二音頻對象。
33. 如權利要求26所述的裝置，其中，如果同時選擇了第一圖像對象和第二圖像對象，則處理器進行控制以依次輸出第一音頻對象和第二音頻對象。
34. 如權利要求26所述的裝置，其中，處理器在圖像的元數(shù)據(jù)、被定義為用于圖像內的音頻數(shù)據(jù)的字段以及映射信息數(shù)據(jù)庫中的一個中搜索與第一圖像對象相應的音頻對象。
35. -種電子裝置，包括：處理器，被配置用于收集圖像和音頻，基于從圖像提取的至少一個圖像對象和從音頻提取的至少一個音頻對象，確定所述至少一個圖像對象與所述至少一個音頻對象之間的相應關系；以及存儲單元，被配置用于存儲包括指示圖像的圖像數(shù)據(jù)、指示音頻的音頻數(shù)據(jù)和指示相應關系的映射數(shù)據(jù)的組合數(shù)據(jù)集。
36. 如權利要求35所述的裝置，其中，通過拍攝圖像和記錄基于圖像拍攝的快門輸入時間點而定義的持續(xù)時間的音頻，通過記錄音頻和在音頻記錄持續(xù)時間內的特定時間點拍攝圖像，或通過拍攝視頻，來收集圖像和音頻。
37. 如權利要求35所述的裝置，其中，處理器提取圖像上的指示特定對象或特定運動的閉環(huán)區(qū)域作為一個圖像對象。
38. 如權利要求35所述的裝置，其中，處理器識別圖像中的角色的面部，將圖像中識別的面部與角色的預注冊的面部圖像進行比較，并確定具有大于或等于閾值的相似度的角色。
39. 如權利要求35所述的裝置，其中，處理器識別圖像中的角色的面部，并通過分析圖像來確定角色的特征，其中，所述特征包括性別或年齡。
40. 如權利要求35所述的裝置，其中，處理器從音頻去除靜音持續(xù)時間、噪聲或背景快門聲。
41. 如權利要求35所述的裝置，其中，處理器從音頻分離說話者的語音信號。
42. 如權利要求41所述的裝置，其中，為了分離說話者的語音信號，處理器從音頻提取語音信號，并通過將說話者相關特征與語音信號的特征進行比較來識別每個說話者的語音信號。
43. 如權利要求42所述的裝置，其中，通過圖像的分析、在電話呼叫時收集的音頻信號的分析、通過語音識別的字面含義的解釋或方向確定來確定說話者相關特征。
44. 如權利要求41所述的裝置，其中，為了分離說話者的語音信號，處理器從音頻提取多個語音信號，并根據(jù)聲音源的方向來分離多個語音信號。
45. 如權利要求35所述的裝置，其中，處理器將具有與第一圖像對象的特征相應的特征的音頻對象映射到第一圖像對象。
46. 如權利要求35所述的裝置，其中，處理器將在第一圖像對象正在運動的同時輸入的音頻對象映射到第一圖像對象。
47. 如權利要求35所述的裝置，其中，處理器確定所述至少一個音頻對象的聲音源的方向，并將以下音頻對象映射到第一圖像對象，其中，所述音頻對象與第一圖像對象的方向具有等于或大于閾值的方向相似度。
48. 如權利要求35所述的裝置，其中，處理器進行控制以顯示用于設置相應關系的用戶界面，并根據(jù)用戶的命令來確定相應關系。
49. 如權利要求35所述的裝置，其中，處理器確定從在不同時間點產生的圖像和音頻提取的所述至少一個圖像對象與所述至少一個音頻對象之間的組合關系。
50. 如權利要求35所述的裝置，其中，組合數(shù)據(jù)集是以下形式之一：圖像數(shù)據(jù)被插入到音頻文件的第一形式、音頻數(shù)據(jù)被插入到圖像文件的第二形式、作為圖像數(shù)據(jù)被構造為視頻軌且音頻數(shù)據(jù)被構造為音頻軌的視頻文件的第三形式以及添加圖像文件、音頻文件和映射信息數(shù)據(jù)庫在其中獨立存在的分離映射信息數(shù)據(jù)庫的第四形式。
51. -種電子裝置，包括：存儲器，被配置用于存儲至少一個軟件模塊；處理器，被配置用于執(zhí)行存儲在存儲器中的所述至少一個軟件模塊；以及顯示單元，被配置用于根據(jù)處理器的控制來顯示圖像，其中，所述至少一個軟件模塊包括進行控制以執(zhí)行以下處理的至少一個指令集：當選擇了圖像內的第一圖像對象時，輸出與第一圖像對象相應的第一音頻對象；當選擇了圖像內的第二圖像對象時，輸出與第二圖像對象相應的第二音頻對象。
52. -種電子裝置，包括：存儲器，被配置用于存儲至少一個軟件模塊；以及處理器，被配置用于執(zhí)行存儲在存儲器中的所述至少一個軟件模塊，其中，所述至少一個軟件模塊包括進行控制以執(zhí)行以下處理的至少一個指令集：收集圖像和音頻，基于從圖像提取的至少一個圖像對象和從音頻提取的至少一個音頻對象來確定所述至少一個圖像對象與所述至少一個音頻對象之間的相應關系，存儲包括指示圖像的圖像數(shù)據(jù)，指示音頻的音頻數(shù)據(jù)和指示相應關系的映射數(shù)據(jù)的組合數(shù)據(jù)集。
53. -種被配置用于存儲包括用于實現(xiàn)電子裝置中的方法的指令的至少一個程序的計算機可讀存儲介質，所述方法包括：顯示圖像；當選擇了圖像內的第一圖像對象時，輸出與第一圖像對象相應的第一音頻對象；以及當選擇了圖像內的第二圖像對象時，輸出與第二圖像對象相應的第二音頻對象。
54. -種電子裝置中的方法，所述方法包括：顯示通過第一相機輸入的第一圖像和通過第二相機輸入的第二圖像；當產生音頻時，確定第一相機和第二相機的拍攝方向中的正確相機方向；以及基于確定的方向信息，將音頻與第一圖像和第二圖像中通過相應方向的相機輸入的圖像映射。
55.如權利要求54所述的方法，其中，第二圖像被顯示為占據(jù)第一圖像內的區(qū)域的一部分，并且如果從第二相機的拍攝方向產生了音頻，則擴展第二圖像的顯示尺寸。
【文檔編號】H04N9/79GK104065869SQ201410101299
【公開日】2014年9月24日申請日期:2014年3月18日優(yōu)先權日:2013年3月18日
【發(fā)明者】金炫廷, 鄭哲虎, 金辰禹, 李基赫申請人:三星電子株式會社

完整全部詳細技術資料下載