基于聲源定向的全景視頻壓縮方法、存儲介質及攝像機與流程

文檔序號：11411212閱讀：300來源：國知局

本發(fā)明涉及智能終端技術領域，特別涉及一種基于聲源定向的全景視頻壓縮方法、存儲介質及攝像機。

背景技術：

隨著近幾年來國內外科技公司對虛擬現(xiàn)實的研究和應用，目前全景拍攝技術已經日趨成熟，相關技術已經投入到旅游景點拍攝、影視拍攝、產品發(fā)布會、演唱會等領域，可見已有一定市場。全景視頻拍攝一般需要多個攝像頭，通過對多個攝像頭拍攝出來的高清視頻文件進行拼接，生成全景視頻文件。目前存在一個問題，由多個高清視頻合成，最終生成的文件非常巨大，不便于網絡中的傳輸。例如在課堂教學領域，a處正在進行課堂教學，b處通過全景技術遠程在線感受a處正在進行的課堂教學。若直接將這文件巨大的視頻文件由a處傳輸至b處，即使在網絡環(huán)境優(yōu)越的情況下，寬度壓力也非常大，對各節(jié)點路由的處理速度的要求也非常高，b處容易出現(xiàn)卡頓情況。若在a處先將視頻進行降分辨率處理，將整個視頻由高清調整為流暢，這樣雖然可以解決網絡卡頓的問題，但b處在觀看全景視頻時會感覺非常模糊，給用戶的使用帶來不變。

因而現(xiàn)有技術還有待改進和提高。

技術實現(xiàn)要素：

針對現(xiàn)有技術的不足，本發(fā)明的目的是要提供一種基于聲源定向的全景視頻壓縮方法、存儲介質及攝像機，以實現(xiàn)跟隨聲源位置自動調整感興趣區(qū)域的效果。

為了解決上述技術問題，本發(fā)明所采用的技術方案如下：

一種基于聲源定向的全景視頻壓縮方法，其包括：

獲取全景攝像機當前拍攝的第一全景圖像的聲源位置，并根據(jù)所述聲源位置將所述第一全景圖像劃分為若干區(qū)域；

根據(jù)所述若干區(qū)域與所述聲源位置的關系確實每個區(qū)域的分辨率，并根據(jù)所述分辨率對所述第一全景圖像進行壓縮。

所述基于聲源定向的全景視頻壓縮方法，其中，所述獲取全景攝像機當前拍攝的第一全景圖像的聲源位置，并根據(jù)所述聲源位置將所述第一全景圖像劃分為若干區(qū)域之前包括：

當全景攝像機拍攝第一全景圖像時，定向所述第一全景圖像的聲源位置；

將所述聲源位置保存為腳本文件，并將所述腳本文件與所述第一全景圖像相關聯(lián)。

所述基于聲源定向的全景視頻壓縮方法，其中，所述當全景攝像機拍攝第一全景圖像時，定向所述第一全景圖像的聲源位置具體包括：

當全景攝像機拍攝第一全景圖像時，判斷所述第一全景圖像是否攜帶聲音；

當攜帶聲音時，定向所述聲音的聲源位置；

當未攜帶聲音時，獲取距離所述第一全景圖像最近的攜帶聲音的第二全景圖像，并將所述第二全景圖像對應的聲源位置定向為第一全景圖像的聲源位置。

所述基于聲源定向的全景視頻壓縮方法，其中，所述當未攜帶聲音時，獲取距離所述第一全景圖像最近的攜帶聲音的第二全景圖像，并將所述第二全景圖像對應的聲源位置定向為第一全景圖像的聲源位置之后包括：

當未獲取到第二全景圖像時，將預設聲源位置定向為所述第一全景圖像的聲源位置。

所述基于聲源定向的全景視頻壓縮方法，其中，所述獲取全景攝像機當前拍攝的第一全景圖像的聲源位置，并根據(jù)所述聲源位置將所述第一全景圖像劃分為若干區(qū)域具體包括：

獲取全景攝像機當前拍攝的第一全景圖像的聲源位置，并以所述聲源位置為中心在所述第一全景圖像上設置若干多邊形；

所述若干多邊形將所述第一全景圖像劃分為若干區(qū)域，其中，所述若干區(qū)域互不重疊。

基于聲源定向的全景視頻壓縮方法，其中，所述根據(jù)所述若干區(qū)域與所述聲源位置的關系確實每個區(qū)域的分辨率，并根據(jù)所述分辨率對所述第一全景圖像進行壓縮具體包括：

分別獲取每個區(qū)域的外接矩形的長邊到所述聲源位置的距離

按照與所述距離成反比的關系為每個區(qū)域設置分辨率，并根據(jù)所述分辨率對所述第一全景圖像進行壓縮。

所述基于聲源定向的全景視頻壓縮方法，其中，所述每個區(qū)域中所有像素點的分辨率按照其距聲源位置的距離的反比設置。

所述基于聲源定向的全景視頻壓縮方法，其中，所述相鄰兩個區(qū)域交匯處的像素點的分辨率相等。

一種存儲介質，其存儲有多條指令，所述指令適于由處理器加載并執(zhí)行如上任一所述基于聲源定向的全景視頻壓縮方法。

一種攝像機，其包括：

處理器，適于實現(xiàn)各指令；以及

存儲設備，適于存儲多條指令，所述指令適于由處理器加載并執(zhí)行如上任一所述基于聲源定向的全景視頻壓縮方法。

有益效果：與現(xiàn)有技術相比，本發(fā)明提供了一種基于聲源定向的全景視頻壓縮方法、存儲介質及攝像機，所述方法包括：獲取全景攝像機當前拍攝的第一全景圖像的聲源位置，并根據(jù)所述聲源位置將所述第一全景圖像劃分為若干區(qū)域；根據(jù)所述若干區(qū)域與所述聲源位置的關系確實每個區(qū)域的分辨率，并根據(jù)所述分辨率對所述第一全景圖像進行壓縮。本發(fā)明通過聲源位置來將所述第一全景圖像劃分為若干區(qū)域，并每個區(qū)域設置分辨率，這樣可以根據(jù)聲源位置的不同而對第一全景圖像進行不同的劃分，從而由所述第一全景圖像合成的全景視頻文件可以根據(jù)聲源變化roi區(qū)域的位置，給用戶的使用帶來方便。

附圖說明

圖1為本發(fā)明提供的基于聲源定向的全景視頻壓縮方法較佳實施例的流程圖。

圖2為本發(fā)明提供的基于聲源定向的全景視頻壓縮方法中3個區(qū)域的示意圖。

圖3為本發(fā)明提供的攝像機較佳實施例的結構原理圖。

具體實施方式

本發(fā)明提供一種基于聲源定向的全景視頻壓縮方法、存儲介質及攝像機，為使本發(fā)明的目的、技術方案及效果更加清楚、明確，以下參照附圖并舉實施例對本發(fā)明進一步詳細說明。應當理解，此處所描述的具體實施例僅用以解釋本發(fā)明，并不用于限定本發(fā)明。

本技術領域技術人員可以理解，除非特意聲明，這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復數(shù)形式。應該進一步理解的是，本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件，但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應該理解，當我們稱元件被“連接”或“耦接”到另一元件時，它可以直接連接或耦接到其他元件，或者也可以存在中間元件。此外，這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個或更多個相關聯(lián)的列出項的全部或任一單元和全部組合。

本技術領域技術人員可以理解，除非另外定義，這里使用的所有術語(包括技術術語和科學術語)，具有與本發(fā)明所屬領域中的普通技術人員的一般理解相同的意義。還應該理解的是，諸如通用字典中定義的那些術語，應該被理解為具有與現(xiàn)有技術的上下文中的意義一致的意義，并且除非像這里一樣被特定定義，否則不會用理想化或過于正式的含義來解釋。

下面結合附圖，通過對實施例的描述，對發(fā)明內容作進一步說明。

請參照圖1，圖1為本發(fā)明提供的基于聲源定向的全景視頻壓縮方法的較佳實施例的流程圖。所述方法包括：

s100、獲取全景攝像機當前拍攝的第一全景圖像的聲源位置，并根據(jù)所述聲源位置將所述第一全景圖像劃分為若干區(qū)域。

具體地，所述全景攝像機可以采集待拍攝場景的音頻信息和視頻信息，所述音頻信息可以通過全景攝像機配置的麥克風陣列采集，視頻信息可以通過全景攝像機配置的攝像頭拍攝。所述全景攝像機可以配置多個攝像頭，也可以配置一個360度全景攝像頭。所述獲取全景攝像機當前拍攝的第一全景圖像可以是全景攝像機獲自身通過攝像頭拍攝的第一全景圖像，也可以是與全景攝像機相連接的終端設備獲取所述全景攝像機拍攝的第一全景圖像。值得說明的，所述第一全景圖像的壓縮過程是一個實時過程的，即對于全景攝像機采集的每一全景圖像均采用本發(fā)明的方法進行壓縮，并且當聲源位置的變化時，區(qū)域劃分的位置也不同，這里是以一個全景圖像為例加以說明。

所述聲源位置指的是所述全景攝像機通過麥克風采集到的所述第一全景圖像對應的聲音的聲源所處的位置。例如，當全景攝像機拍攝教師課堂教學的視頻時，所述聲源位置為所述教師所處的位置。也就是說，所述聲源位置可以通過所述麥克風進行定向。這里，所述聲源位置指的是所述聲源的中心位置，可以通過坐標點的位置來記錄所述聲源的位置，并且所述聲源位置的坐標可以通過腳本文件的形式存儲，并與所述第一全景圖像相關聯(lián)，這樣根據(jù)所述第一全景圖像可以快速確定并調用其對應的聲源位置。

示例性的，所述獲取全景攝像機當前拍攝的第一全景圖像的聲源位置，并根據(jù)所述聲源位置將所述第一全景圖像劃分為若干區(qū)域之前包括：

s01、當全景攝像機拍攝第一全景圖像時，定向所述第一全景圖像的聲源位置；

s02、將所述聲源位置保存為腳本文件，并將所述腳本文件與所述第一全景圖像相關聯(lián)。

具體地，所述全景攝像機拍攝第一全景圖像指的是所述全景攝像機通過其配置的若干攝像頭拍攝的當前全景圖像，記為第一全景圖像。并且，通過攝像頭拍攝全景圖像的同時，還可以通過其配置的麥克風陣列采集音頻信息，并定向所述音頻信息的聲源位置。也就是說，所述聲源位置為所述第一全景圖像攜帶的聲音的聲源位置。在本實施例中，所述將聲源位置保存為腳本文件具體可以為當全景攝像機配置的麥克風陣列錄音時，通過所述麥克風陣列進行聲源定向，并記錄聲音的方向以生成腳本，在腳本中標識出聲音中心坐標信息（x，y）作為所述聲音的聲源位置，并將所述腳本保存成腳本文件。

在本發(fā)明的一個實施例中，全景攝像機拍攝的第一全景圖像可能未攜帶聲音，從而當全景攝像機拍攝第一全景圖像時之后還可以包括一個判斷過程，用于判斷所述第一全景圖像是否攜帶聲音，并根據(jù)判斷結果進行相應的操作，這樣可以保證每個第一全景圖像均攜帶聲源位置，從而可以提高區(qū)域劃分的準確性。相應的，所述步驟s01、所述當全景攝像機拍攝第一全景圖像時，定向所述第一全景圖像的聲源位置具體包括：

s011、當全景攝像機拍攝第一全景圖像時，判斷所述第一全景圖像是否攜帶聲音；

s012、當攜帶聲音時，定向所述聲音的聲源位置；

s013、當未攜帶聲音時，獲取距離所述第一全景圖像最近的攜帶聲音的第二全景圖像，并將所述第二全景圖像對應的聲源位置定向為第一全景圖像的聲源位置。

具體地，所述距離所述第一全景圖像最近指的是拍攝時間距離所述第一全景圖像拍攝時間最近的。

在本發(fā)明的再一個實施例中，所述第一全景圖像可以是拍攝的第一個圖像，也可以在所述第一全景圖像之前為拍攝包含聲音的全景圖像，還可以是所述第一全景圖像前攜帶聲音的全景圖像與其相距的時間較長等。從而，當為攜帶聲音時，還可以包括一個判定過程，用于判斷聲源位置。相應的，所述當未攜帶聲音時，獲取距離所述第一全景圖像最近的攜帶聲音的第二全景圖像，并將所述第二全景圖像對應的聲源位置定向為第一全景圖像的聲源位置具體可以包括：

s0131、當未攜帶聲音時，獲取距離所述第一全景圖像最近的攜帶聲音的第二全景圖像；

s0132、當獲取到第二全景圖像時，確定所述第一全景圖像的拍攝時間與第二全景圖像的拍攝時間的時間間隔，并將所述時間間隔與預設時長進行比較；

s0133、當所述時間間隔小于等于所述預設時長時，則將所述第二全景圖像對應的聲源位置定向為第一全景圖像的聲源位置；

s0134、當為獲取到第二全景圖像/所述時間間隔大于所述預設時長時，將預設聲源位置定向為所述第一全景圖像的聲源位置。

具體地，所述預設時長為預先設置的，例如，1分鐘、2分鐘等。所述預設聲源位置可以是預先設置的，如，圖像的中心位置等；其也可以是根據(jù)現(xiàn)在的圖像識別方法確定的特定對象的位置，如，教師的位置等。這樣可以更加準確的確定聲源位置，使得區(qū)域的劃分更加準確。

在本發(fā)明的一個實施例中，所述獲取全景攝像機當前拍攝的第一全景圖像的聲源位置，并根據(jù)所述聲源位置將所述第一全景圖像劃分為若干區(qū)域具體包括：

s101、獲取全景攝像機當前拍攝的第一全景圖像的聲源位置，并以所述聲源位置為中心在所述第一全景圖像上設置若干多邊形；

s102、所述若干多邊形將所述第一全景圖像劃分為若干區(qū)域，其中，所述若干區(qū)域互不重疊。

具體的來說，所述多邊形可以為正方形、矩形等規(guī)則圖形。當然，在本實施例的變形實施例中，也可以在所述第一全景圖形設置若干圓形等其他圖形。在本實施中，所述多邊形為矩形，并且若干個矩形為的中心均為聲源位置。所述矩形的個數(shù)為2個，并根據(jù)其長邊到所述聲源位置距離分別記為第一矩形和第二矩形，所述聲源位置到第一矩形長邊的距離小于聲源位置到第二矩形長邊與的距離。所述第一矩形和第二矩形將所述第一全景圖像劃分為三個區(qū)域。

所述三個區(qū)域分別記為感興趣區(qū)域，過渡區(qū)域以及非感興趣區(qū)域，所述感興趣區(qū)域、過渡區(qū)域以及非感興趣區(qū)域相對于所述聲源位置依次向外延伸。也就是說，所述感興趣區(qū)域第一矩形構成的區(qū)域，所述過渡區(qū)域為是第一矩形以外區(qū)域和第二矩形區(qū)域的相交區(qū)域，所述非感興趣區(qū)域為第二矩形以外的區(qū)域。值得說明的，所述感興趣區(qū)域、過渡區(qū)域以及非感興趣區(qū)域互不重疊。

為了詳細說明所述感興趣區(qū)域、過渡區(qū)域以非感興趣區(qū)域的劃分過程，給出一個區(qū)域劃分的具體例子。如圖2所述，假設聲源位置為（x，y），設第一矩形的四個頂點分別為a（x-a，y-b）b（x-a，y+b）c（x+a，y+b）d（x+a，y-b），第二矩形區(qū)域的四個頂點分別e（x-2a，y-2b）f（x-2a，y+2b）h（x+2a，y+2b）g（x+2a，y-2b）；那么所述感興趣區(qū)域為由a（x-a，y-b）b（x-a，y+b）c（x+a，y+b）d（x+a，y-b）四點連成的第一矩形區(qū)域，過渡區(qū)域為主視覺區(qū)域至e（x-2a，y-2b）f（x-2a，y+2b）h（x+2a，y+2b）g（x+2a，y-2b）四點連成的第二矩形區(qū)域之間的區(qū)域，所述非感興趣區(qū)域為e（x-2a，y-2b）f（x-2a，y+2b）h（x+2a，y+2b）g（x+2a，y-2b）四點連成的區(qū)域以外的區(qū)域。

s200、根據(jù)所述若干區(qū)域與所述聲源位置的關系確實每個區(qū)域的分辨率，并根據(jù)所述分辨率對所述第一全景圖像進行壓縮。

具體地，所述若干區(qū)域與所述聲源位置的關系指的是所述聲源位置到所述若干區(qū)域的距離的關系。在本實施例中，所述聲源位置到若干區(qū)域的距離指的是所述聲源位置到所述若干區(qū)域的外接矩形的長邊的距離。并采用與所述距離成反比的關系確定每個區(qū)域對應的分辨率，并根據(jù)所述分辨率對所述第一全景圖像進行壓縮。

示例性的，所述根據(jù)所述若干區(qū)域與所述聲源位置的關系確實每個區(qū)域的分辨率，并根據(jù)所述分辨率對所述第一全景圖像進行壓縮具體包括：

s201、分別獲取每個區(qū)域的外接矩形的長邊到所述聲源位置的距離

s202、按照與所述距離成反比的關系為每個區(qū)域設置分辨率，并根據(jù)所述分辨率對所述第一全景圖像進行壓縮。

具體地來說，所述與距離成反比關系指的是所述距離越小，其對應的分辨率越高。為了使得所述圖像分辨率的變化更加平滑，對于所述每個區(qū)域中所有像素點的分辨率按照其距聲源位置的距離的反比設置。并且，相鄰兩個區(qū)域交匯處的像素點的分辨率相等。這樣避免了用戶轉動頭部時觀看感興趣區(qū)域外的其它區(qū)域時，人眼直接從高分辨率區(qū)域轉到低分辨率區(qū)域而引起的不適。當然，在本實施例的變形實施例中，感興趣區(qū)域和非感興趣區(qū)域內的分辨率可以設置為一直，而過渡區(qū)域的分辨率設置為漸變過程。例如，感興趣區(qū)域分辨率為4k分辨率，非感興趣區(qū)域為1024分辨率。過渡區(qū)域靠近主視覺區(qū)域的邊緣為4k分辨率，靠近副視覺區(qū)域的邊緣的分辨率為1024分辨率，過渡區(qū)域的分辨率由4k逐漸降低至1024分辨率。

綜上所述，本發(fā)明提供了基于聲源定向的全景視頻壓縮方法，其根據(jù)聲源位置將所述全景圖像劃分為感興趣區(qū)域、過渡區(qū)域以及非感興趣區(qū)域，并且所述三個區(qū)域隨聲源方向的變化而動態(tài)調整，能保證感興趣區(qū)域跟隨最重要的視頻信息，同時僅保留主視覺區(qū)域為高分辨率區(qū)域，過渡區(qū)域和副視覺區(qū)域的分辨率都比感興趣區(qū)域低，能有效降低全景視頻的文件大小，適用于實時在線傳送，能有效降低寬帶壓力，特別適用于課堂全景視頻的實時教學。另外，本發(fā)明還設置了過渡區(qū)域，避免了用戶轉動頭部時觀看主視覺區(qū)域外的其它區(qū)域時，人眼直接從高分辨率區(qū)域轉到低分辨率區(qū)域而引起的不適。

本發(fā)明還提供了一種存儲介質，其存儲有多條指令，所述指令適于由處理器加載并執(zhí)行如上任一所述基于聲源定向的全景視頻壓縮方法。

本發(fā)明還提供了一種攝像機，如圖3所示，其包括：

處理器100，適于實現(xiàn)各指令；以及

存儲設備200，適于存儲多條指令，所述指令適于由處理器加載并執(zhí)行如上任一所述基于聲源定向的全景視頻壓縮方法。

上述存儲介質以及攝像機的代碼處理過程已在上述方法中已經詳細說明，在這里就不再一一陳述。

在本發(fā)明所提供的實施例中，應該理解到，所揭露的系統(tǒng)和方法，可以通過其它的方式實現(xiàn)。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述模塊的劃分，僅僅為一種邏輯功能劃分，實際實現(xiàn)時可以有另外的劃分方式，例如多個單元或組件可以結合或者可以集成到另一個系統(tǒng)，或一些特征可以忽略，或不執(zhí)行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口，裝置或單元的間接耦合或通信連接，可以是電性，機械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個網絡單元上?？梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。

另外，在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn)，也可以采用硬件加軟件功能單元的形式實現(xiàn)。

上述以軟件功能單元的形式實現(xiàn)的集成的單元，可以存儲在一個計算機可讀取存儲介質中。上述軟件功能單元存儲在一個存儲介質中，包括若干指令用以使得一臺計算機設備(可以是個人計算機，服務器，或者網絡設備等)或處理器(processor)執(zhí)行本發(fā)明各個實施例所述方法的部分步驟。而前述的存儲介質包括：u盤、移動硬盤、只讀存儲器(read-onlymemory，rom)、隨機存取存儲器(randomaccessmemory，ram)、磁碟或者光盤等各種可以存儲程序代碼的介質。

最后應說明的是：以上實施例僅用以說明本發(fā)明的技術方案，而非對其限制；盡管參照前述實施例對本發(fā)明進行了詳細的說明，本領域的普通技術人員應當理解：其依然可以對前述各實施例所記載的技術方案進行修改，或者對其中部分技術特征進行等同替換；而這些修改或者替換，并不使相應技術方案的本質脫離本發(fā)明各實施例技術方案的精神和范圍。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：李家銘;李晶;陳勇
技術所有人：深圳市酷開網絡科技有限公司
我是此專利的發(fā)明人

上一篇：一種牙刷自動清洗裝置的制造方法
上一篇：基于Cardboard的360度沉浸式遠程視頻監(jiān)控系統(tǒng)及方法與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術及應用 3.機電一體化產品開發(fā) 4.機械工程測試技術 5.逆向工程技術研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設計 2.汽車檢測系統(tǒng)設計 3.汽車電子控制系統(tǒng)設計
4、畢老師：機構動力學與控制
5、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

全景圖像拼接算法源碼相關技術

android全景拍照源碼相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于聲源定向的全景視頻壓縮方法、存儲介質及攝像機與流程

基于聲源定向的全景視頻壓縮方法、存儲介質及攝像機與流程