專利名稱:通信設備和方法
技術領域:
本發(fā)明涉及一種通信設備和方法,更具體地說,涉及一種有選擇地發(fā)送/接收所攝取的照相機圖像和包含特定輔助圖像的圖像的設備和方法。
背景技術:
通常,正在使用電視電話的交談者在通話期間總是只盯著對方的視頻圖像。但是,在某些情況下,他/她可能想要在交談的同時看到一些輔助材料等。例如在視頻會議中,如果在演講時放映一些演示材料,例如具體的圖表,與會者就可以更容易地理解所講的內容。甚至在家用電視電話中或在移動電話中,如果人們在看到對方的同時能看見圖片或地圖,那么他們就可以從會話中獲得更多的享受。具有發(fā)送輔助材料的功能的傳統視頻會議系統具有一個裝置,用于在視頻圖像和話音數據之外發(fā)送靜止圖像。預先將材料存儲為例如JPEG格式的靜止圖像,并由預定的密鑰操作(keyoperation)來發(fā)送這些材料。
使用話音識別的視頻會議系統不需要用戶完成這種預定的密鑰操作。
圖13示出了視頻會議系統的一個例子。
參考圖13,傳統的視頻會議系統包括發(fā)送設備50和接收設備51。發(fā)送設備50包括話音接收單元3、攝像單元4例如照相機、對接收的話音進行編碼的話音編碼器5、以及對接收的運動圖像進行編碼的運動圖像編碼器6。
發(fā)送設備50還包括靜止圖像數據庫52和靜止圖像編碼器53,其對從靜止圖像數據庫52接收的靜止圖像進行編碼。靜止圖像數據庫52將靜止圖像數據存儲為輔助材料,以在會議中與作為關鍵字的話音數據一同使用。
話音編碼器5所得到的話音、運動圖像編碼器6所得到的運動圖像和靜止圖像編碼器53所得到的靜止圖像壓縮數據被復接單元54復接(multiplex)在一起,并通過發(fā)送單元7被發(fā)送到接收設備51。存儲在靜止圖像數據庫52中的輔助圖像被預先發(fā)送到接收設備51。
接收設備51包括分接單元55,其將所接收的復接數據分接(demultiplex)為各個壓縮數據,還包括話音解碼器9、運動圖像解碼器10和靜止圖像解碼器56,它們分別對話音、運動圖像和靜止圖像壓縮數據進行解碼。接收設備51還包括話音識別單元58和靜止圖像數據庫57。
在接收設備51中,預先接收的輔助圖像數據被保存在靜止圖像數據庫57中。關鍵字被登錄在話音識別單元58中,并與靜止圖像數據庫57中特定的靜止圖像數據相關。
在視頻會議中,通過接收單元8接收的復接數據由分接單元55分接成運動圖像壓縮數據和話音壓縮數據。該運動圖像數據和話音數據分別由運動圖像解碼器10和話音解碼器9解碼,并被輸出到顯示單元12和話音輸出單元11。同時,來自話音解碼器9的輸出數據被輸入到話音識別單元58中。當識別出的話音數據與登錄的關鍵字一致時,這個結果被發(fā)送到數據確定單元59。數據確定單元59從靜止圖像數據庫57中選出與識別出的關鍵字相對應的靜止圖像數據,使得所選出的靜止圖像數據作為輔助圖像被顯示在顯示單元12上。
在上述設置下,可使另一方一側的設備顯示所述輔助圖像,而無需任何特定的密鑰操作(例如,日本專利在先公開No.11-355747)。
然而,在使用實時顯示圖像的通信設備的通信中,需要一種具有更高可操作性的通信設備和方法,其允許顯示主圖像之外的輔助圖像,而不必考慮可操作性。
發(fā)明內容
本發(fā)明就是要解決以上問題,其目的是提供一種具有更高可操作性的通信設備和方法,其在使用實時顯示圖像的通信設備的通信中,允許顯示主圖像之外的輔助圖像,而不必考慮可操作性。
為了實現以上目的,根據本發(fā)明提供了一種通信設備,其包括攝像裝置,用于攝取照相機圖像;話音識別裝置,用于從輸入的話音中識別短語;關鍵字檢測裝置,用于檢測在已登錄的關鍵字和從話音識別裝置中輸出的短語之間的一致性;輔助圖像選擇裝置,用于響應于來自所述關鍵字檢測裝置的一致性檢測輸出,選擇與已登錄的關鍵字相關的特定輔助圖像;輸入圖像切換裝置,用于響應于所述一致性檢測輸出,在從攝像裝置中輸出的照相機圖像和包含從輔助圖像選擇裝置中輸出的輔助圖像的圖像中有選擇地輸出兩者之一;和發(fā)送裝置,用于發(fā)送輸入的話音和從所述輸入圖像切換裝置中輸出的圖像。
根據本發(fā)明,還提供了一種包括以下步驟的通信方法攝取照相機圖像;從輸入的話音中識別短語;檢測所述短語和已登錄的關鍵字之間的一致性;響應于所述一致性檢測輸出,選擇與已登錄的關鍵字相關的輔助圖像;響應于所述一致性檢測輸出,在所攝取的照相機圖像和包含所選擇的輔助圖像的圖像中有選擇地輸出兩者之一;并發(fā)送所輸出的照相機圖像和輔助圖像之一。
圖1是示出第一實施例的示意性設置的框圖;圖2示出了當靜止圖像用作輔助圖像時,關鍵字確定單元和輔助圖像選擇單元的內部設置的細節(jié)的框圖;圖3是示出當運動圖像用作輔助圖像時,關鍵字確定單元和輔助圖像選擇單元的內部設置的細節(jié)的框圖;圖4示出了當靜止圖像用作輔助圖像時發(fā)送側的操作的流程圖;圖5示出了接收側的操作的流程圖;圖6示出了當電影文件用作輔助圖像時發(fā)送側的操作的流程圖;圖7是示出第二實施例的示意性設置的框圖;圖8是示出當靜止圖像用作輔助圖像時,關鍵字確定單元和輔助圖像選擇單元的內部設置的細節(jié)的框圖;圖9是示出當運動圖像用作輔助圖像時,關鍵字確定單元和輔助圖像選擇單元的內部設置的細節(jié)的框圖;
圖10示出了發(fā)送側的操作的流程圖;圖11是示出當靜止圖像用作輔助圖像時的輔助圖像選擇操作的流程圖;圖12是示出當電影文件用作輔助圖像時的輔助圖像選擇操作的流程圖;圖13是示出傳統的視頻會議系統的設置的框圖。
具體實施例方式
下面參考附圖來詳細描述本發(fā)明的實施例。
第一實施例圖1示出了第一實施例的示意性設置。在根據這個實施例的電視電話中,一個電視電話設備既包括發(fā)送設備1又包括接收設備2。在后面的描述中,為了便于理解,將省略對發(fā)送側的接收設備以及接收側的發(fā)送設備的描述。
參考圖1,這個實施例包括發(fā)送設備1、接收設備2和信息通信網絡。
信息通信網絡能夠使用有線通信或無線通信進行雙向通信數據發(fā)送/接收。
發(fā)送設備1將發(fā)送者所輸入的話音和將要顯示在接收設備上的圖像轉換成可通過信息通信網絡傳送的數據格式,并將所述數據發(fā)送給接收設備。
接收設備2通過信息通信網絡接收從發(fā)送設備1發(fā)送的數據,并輸出/顯示所述話音和圖像。
發(fā)送設備1還包括話音接收單元3、攝像單元4、話音編碼器5、運動圖像編碼器6、復接單元17、話音識別單元13、關鍵字確定單元14、輔助圖像選擇單元15、輸入圖像選擇器開關16和發(fā)送單元7。
攝像單元4是一種靜止圖像成像設備例如數碼相機,或者是一種運動圖像成像設備例如攝像機。攝像單元4包括在發(fā)送裝置1中,或與發(fā)送裝置1外部相連。攝像單元4實時攝取發(fā)送者的視頻圖像,將所攝取的圖像轉換成電信號,并將其作為圖像數據輸出到輸入圖像選擇器開關16。
話音接收單元3是一種聲音收集設備,用于收集發(fā)送者所發(fā)出的話音。話音接收單元3包括在發(fā)送裝置1中,或與發(fā)送裝置1外部相連。話音接收單元3實時收集發(fā)送者所發(fā)出的話音,將所收集的話音轉換成電信號,并將轉換后的話音作為話音數據輸出到話音識別單元13和話音編碼器5。
話音識別單元13是這樣一種信息處理功能件,其接收從話音接收單元3輸出的話音數據,并自動識別包含在所接收的話音數據中的短語。這種話音識別處理所識別出的短語作為已識別短語數據而輸出。
關鍵字確定單元14是這樣一種信息處理功能件,其確定從話音識別單元13輸出的已識別短語數據是否與預先登錄的關鍵字一致。關鍵字確定單元14向輸入圖像選擇器開關16輸出控制信號,以有選擇地連接其內部的終端,并且向輔助圖像選擇單元15輸出指令(輔助圖像選擇指令)以選擇一個輔助圖像。輔助圖像選擇指令包含被確定為與已識別短語數據一致的關鍵字??刂菩盘柡洼o助圖像選擇指令是基于關鍵字確定單元14的確定結果而從中輸出的。
輔助圖像選擇單元15接收從關鍵字確定單元14發(fā)送的輔助圖像選擇指令?;谒邮盏妮o助圖像選擇指令,輔助圖像選擇單元15選擇與所述關鍵字相對應的輔助圖像數據,并把它輸出到輸入圖像選擇器開關16。
輸入圖像選擇器開關16有選擇地向運動圖像編碼器6輸出從攝像單元4輸出的圖像數據和從輔助圖像選擇單元15輸出的輔助圖像數據中的至少一個。將被輸出到運動圖像編碼器6的圖像數據由從關鍵字確定單元14輸出的控制信號來完成切換。
運動圖像編碼器6是這樣一種圖像數據轉換功能件,其對數據格式進行轉換,以將從攝像單元4輸出的圖像數據或從輔助圖像選擇單元15輸出的輔助圖像發(fā)送到接收設備2。可通過信息通信網絡將運動圖像數據以最佳狀態(tài)傳送到接收設備2的格式被用作轉換格式。
話音編碼器5是這樣一種話音數據轉換功能件,其對數據格式進行轉換,以將從話音接收單元3輸出的話音數據發(fā)送到接收設備2??赏ㄟ^信息通信網絡將話音數據以最佳狀態(tài)傳送到接收設備2的格式被用作轉換格式。
復接單元17是這樣一種數據合成功能件,其將已由運動圖像編碼器6進行數據格式轉換的發(fā)送運動圖像數據和已由話音編碼器5進行數據格式轉換的發(fā)送話音數據復接在一起。復接數據被輸出到發(fā)送單元7。
發(fā)送單元7是一種數據發(fā)送功能件。發(fā)送單元7將從復接單元17輸出的復接數據通過信息通信網絡發(fā)送到接收設備2的接收單元8。
接收設備2還包括接收單元8、分接單元18、話音解碼器9、運動圖像解碼器10、話音輸出單元11和顯示單元12。
接收單元8是一種數據接收功能件。接收單元8接收從發(fā)送設備1的發(fā)送單元7通過信息通信網絡傳送而來的復接數據,并將所接收的復接數據輸出到分接單元18。
分接單元18是一種數據分接功能件,其將從接收單元8發(fā)送來的復接數據分接成話音數據和運動圖像數據。分接后的話音數據被輸出到話音解碼器9。分接后的運動圖像數據被輸出到運動圖像解碼器10。
話音解碼器9是一種話音數據格式轉換功能件。話音解碼器9將由分接單元18分接出的話音數據從適于通過信息通信網絡傳輸的格式轉換成可從話音輸出單元11輸出的格式。
運動圖像解碼器10是一種圖像數據格式轉換功能件。運動圖像解碼器10將由分接單元18分接出的話音圖像數據從適于通過信息通信網絡傳輸的格式轉換成可在顯示單元12上顯示的格式。
話音輸出單元11是一種話音輸出設備,例如揚聲器。話音輸出單元11將已由話音解碼器9進行格式轉換的話音數據輸出為話音。
顯示單元12是一種圖像顯示設備。顯示單元12將已由運動圖像解碼器10進行格式轉換的運動圖像數據輸出為顯示圖像。
圖2示出了當靜止圖像用作輔助圖像時,關鍵字確定單元14和輔助圖像選擇單元15的內部設置的細節(jié)。
參考圖2,關鍵字確定單元14還包括已登錄關鍵字存儲器件20和關鍵字匹配單元21。輔助圖像選擇單元15還包括靜止圖像存儲器件22、關鍵字對應圖像讀取單元23和圖像格式轉換單元24。
已登錄關鍵字存儲器件20是一種用于存儲預先登錄的關鍵字的存儲設備。已登錄關鍵字存儲器件20所存儲的多個關鍵字是由登錄者預先登錄的,并將用于關鍵字確定。
關鍵字匹配單元21是這樣一種信息處理功能件,其執(zhí)行搜索處理,以確定與從話音識別單元13輸出的已識別短語數據一致的關鍵字是否登錄在已登錄關鍵字存儲器件20中。響應于從話音識別單元13輸出的已識別短語數據的輸入,關鍵字匹配單元21搜索已登錄關鍵字存儲器件20?;谒阉鹘Y果,關鍵字匹配單元21輸出對應于以下兩種情況之一的控制信號,一種情況是登錄有與已識別短語數據一致的關鍵字,另一種情況是未登錄任何與已識別短語數據一致的關鍵字。如果搜索的結果被確定為登錄有與已識別短語數據一致的關鍵字,則向關鍵字對應圖像讀取單元23輸出輔助圖像選擇指令,以用于選擇對應于所述關鍵字的輔助圖像。
靜止圖像存儲器件22是一種預先存儲將要用作輔助圖像的靜止圖像的存儲設備。在使用根據這個實施例的電視電話的語音通信中可用作輔助圖像的靜止圖像對應于將用來輸出該靜止圖像的關鍵字而被存儲。
關鍵字對應圖像讀取單元23是用于從靜止圖像存儲器件22中讀出靜止圖像的信息處理功能件。響應于從關鍵字匹配單元21輸出的輔助圖像選擇指令,關鍵字對應圖像讀取單元23從靜止圖像存儲器件22中讀出與關鍵字相對應的靜止圖像,并將該靜止圖像輸出到圖像格式轉換單元24。
圖像格式轉換單元24是用于轉換由關鍵字對應圖像讀取單元23所讀出的靜止圖像的圖像格式的數據轉換功能件。圖像格式轉換單元24將從關鍵字對應圖像讀取單元23輸出的、作為輔助圖像的靜止圖像的圖像格式轉換為適于輸入到運動圖像編碼器6的圖像格式。例如當靜止圖像具有JPEG格式時,圖像格式轉換單元24將其擴展成YUV格式。
圖3示出了當運動圖像用作輔助圖像時,關鍵字確定單元14和輔助圖像選擇單元15的內部設置的細節(jié)。
參考圖3,關鍵字確定單元14還包括已登錄關鍵字存儲器件20和關鍵字匹配單元21。輔助圖像選擇單元15還包括電影文件存儲器件30、關鍵字對應文件讀取單元31、運動圖像數據抽取單元32和運動圖像格式轉換單元33。
已登錄關鍵字存儲器件20是一種用于存儲預先登錄的關鍵字的存儲設備。已登錄關鍵字存儲器件20所存儲的多個關鍵字是由登錄者預先登錄的,并將用于關鍵字確定。
關鍵字匹配單元21是這樣一種信息處理功能件,其執(zhí)行搜索處理,以確定與從話音識別單元輸出的已識別短語數據一致的關鍵字是否登錄在已登錄關鍵字存儲器件20中。響應于從話音識別單元輸出的已識別短語數據的輸入,關鍵字匹配單元21搜索已登錄關鍵字存儲器件20?;谒阉鹘Y果,關鍵字匹配單元21輸出對應于以下兩種情況之一的控制信號,一種情況是登錄有與已識別短語數據一致的關鍵字,另一種情況是未登錄任何與已識別短語數據一致的關鍵字。如果搜索的結果被確定為登錄有與已識別短語數據一致的關鍵字,則向關鍵字對應文件讀取單元31輸出輔助圖像選擇指令,以用于選擇對應于所述關鍵字的輔助圖像。
電影文件存儲器件30是一種用于預先存儲將用作輔助圖像的電影文件的存儲設備。在使用根據這個實施例的電視電話的語音通信中可用作輔助圖像的電影文件對應于將用來輸出該電影文件的關鍵字而被存儲。
關鍵字對應文件讀取單元31是用于從電影文件存儲器件30中讀出電影文件的信息處理功能件。響應于從關鍵字匹配單元21輸出的輔助圖像選擇指令,關鍵字對應文件讀取單元31從電影文件存儲器件30中讀出與關鍵字相對應的電影文件,并將該電影文件輸出到運動圖像數據抽取單元32。
運動圖像數據抽取單元32是一種分離電影文件并抽取圖像數據的數據抽取功能件。運動圖像數據抽取單元32所抽取的圖像數據被輸出到運動圖像格式轉換單元33。
運動圖像格式轉換單元33是一種對運動圖像數據抽取單元32所抽取的圖像數據的圖像格式進行轉換的數據轉換功能件。運動圖像格式轉換單元33將從運動圖像數據抽取單元32輸出的、作為輔助圖像的圖像數據的圖像格式轉換為適于輸入到運動圖像編碼器6的圖像格式。例如,圖像格式被轉換為例如YUV格式。轉換后的運動圖像數據對應于每一幀被輸入到運動圖像編碼器6。
表1是一張已登錄關鍵字數據表,其表示存儲在已登錄關鍵字存儲器件20中的已登錄關鍵字的示例。參考表1,已登錄關鍵字數據表存儲了由根據這個實施例的電視電話的用戶所預先登錄的關鍵字。只要使在登錄關鍵字中所使用的文本數據與將要實際用于話音識別的話音數據相對應,就完成了對關鍵字的存儲。
表1已登錄關鍵字數據表
表2是一張靜止圖像數據表,其表示已登錄關鍵字和存儲在靜止圖像存儲器件22中的圖像數據之間的對應關系的示例。參考表2,靜止圖像數據表對應于靜止圖像數據而存儲包含在輔助圖像選擇指令中的關鍵字。已接收輔助圖像選擇指令的關鍵字對應圖像讀取單元23使用該靜止圖像數據表,從而讀出靜止圖像作為輔助圖像。
表2靜止圖像數據表
表3是一張電影文件數據表,其表示已登錄關鍵字和存儲在電影文件存儲器件30中的電影文件數據之間的對應關系的示例。參考表3,電影文件數據表對應于電影文件數據而存儲包含在輔助圖像選擇指令中的關鍵字。已接收輔助圖像選擇指令的關鍵字對應文件讀取單元31使用該電影文件數據表,從而讀出電影文件作為輔助圖像。
表3電影文件數據表
下面將描述這個實施例的操作。圖4示出了當靜止圖像用作輔助圖像時發(fā)送側的操作。
參考圖4,在步驟S101,在這個實施例中所要描述的電視電話的用戶從話音接收單元3輸入用于語音通信的話音。話音接收單元3將在步驟S101中輸入的話音轉換成電信號,并將其作為話音數據輸出到話音識別單元13和話音編碼器5。
在步驟S103,從話音接收單元3輸出的話音數據被輸入到話音識別單元13。話音識別單元13執(zhí)行話音識別處理,以自動地識別出包含在所接收的話音數據中的短語。所識別出的短語被輸出為已識別短語數據。
從話音識別單元13輸出的已識別短語數據被發(fā)送到關鍵字確定單元14。在步驟S105,關鍵字確定單元14確定在已識別短語數據中是否包含已登錄的關鍵字。如果在步驟S105中確定在已識別短語數據中包含已登錄的關鍵字(是),則關鍵字確定單元14輸出控制信號(切換信號)和輔助圖像選擇指令,所述控制信號用于控制在輸入圖像選擇器開關16中將終端B連接到終端S上,所述輔助圖像選擇指令用于讀出輔助圖像。流程前進到步驟S107。
在步驟S107,從關鍵字確定單元14輸出的輔助圖像選擇指令被輸入到輔助圖像選擇單元15。一旦接收到輔助圖像選擇指令,輔助圖像選擇單元15就讓關鍵字對應圖像讀取單元23和圖像格式轉換單元24執(zhí)行該指令。
更具體地說,在步驟S108,關鍵字對應圖像讀取單元23從靜止圖像存儲器件22中讀出與關鍵字相對應的靜止圖像,并將對應于所述關鍵字的讀出輔助圖像輸出到圖像格式轉換單元24。在步驟S109,圖像格式轉換單元24將從關鍵字對應圖像讀取單元23輸出的、作為輔助圖像的靜止圖像的圖像格式轉換為適于輸入到運動圖像編碼器6的圖像格式,并將所述圖像數據輸出到輸入圖像選擇器開關16。
在步驟S111,從輔助圖像選擇單元15輸出的輔助靜止圖像通過輸入圖像選擇器開關16的終端B和S被輸入到運動圖像編碼器6。
另一方面,如果在步驟S105中確定在已識別短語數據中未包含任何已登錄關鍵字(否),則關鍵字確定單元14輸出控制信號以控制在輸入圖像選擇器開關16中將終端A連接到終端S上。流程前進到步驟S113。
在步驟S113,從攝像單元4輸出的照相機圖像被輸入到運動圖像編碼器6。
在步驟S115,運動圖像編碼器6通過將從攝像單元4輸出的照相機圖像數據或從輔助圖像選擇單元15輸出的輔助靜止圖像數據轉換成適于通過網絡傳輸的格式,而生成發(fā)送運動圖像數據,并且將該發(fā)送運動圖像數據輸出到復接單元17。
在步驟S117,復接單元17將在步驟S101從話音接收單元3輸出并已由話音編碼器5進行數據格式轉換的發(fā)送話音數據和在步驟S115從運動圖像編碼器6輸出的發(fā)送運動圖像數據復接在一起,并將復接數據輸出到發(fā)送單元7。
在步驟S119,發(fā)送單元7通過信息通信網絡來發(fā)送從復接單元17輸出的復接數據。
圖5示出了在這個實施例的操作中接收側的操作。
在步驟S201,接收單元8通過信息通信網絡接收在圖4中的步驟S119,從發(fā)送單元7發(fā)送的復接數據,并將所接收的復接數據輸出到分接單元18。
在步驟S203,分接單元18將從接收單元8輸出的復接數據分接成話音數據和運動圖像數據。分接出的話音數據被輸出到話音解碼器9。分接出的運動圖像數據被輸出到運動圖像解碼器10。
在步驟S205,運動圖像解碼器10將分接單元18所分接出的運動圖像數據從適于通過信息通信網絡傳輸的格式轉換成可在顯示單元12上顯示的格式,并輸出該運動圖像數據。
在步驟S207,顯示單元12將已由運動圖像解碼器10進行格式轉換并被輸出的運動圖像數據作為顯示圖像而顯示出來。
在步驟S209,話音解碼器9將分接單元18所分接出的話音數據從適于通過信息通信網絡傳輸的格式轉換成可從話音輸出單元11輸出的格式,并輸出該話音數據。
在步驟S211,話音輸出單元11將已由話音解碼器9進行格式轉換并輸出的話音數據作為話音而輸出。
圖6示出了在根據這個實施例的操作中電影文件用作輔助圖像的情況。
參考圖6,在步驟S301,在這個實施例中所要描述的電視電話的用戶從話音接收單元3輸入用于語音通信的話音。話音接收單元3將在步驟S301中輸入的話音轉換成電信號,并將其作為話音數據輸出到話音識別單元13和話音編碼器5。
在步驟S303,從話音接收單元3輸出的話音數據被輸入到話音識別單元13。話音識別單元13執(zhí)行話音識別處理,以自動地識別出包含在所接收的話音數據中的短語。所識別出的短語被輸出為已識別短語數據。
從話音識別單元13輸出的已識別短語數據被發(fā)送到關鍵字確定單元14。在步驟S305,關鍵字確定單元14確定已登錄的關鍵字是否包含在已識別短語數據中。如果在步驟S305中確定在已識別短語數據中包含已登錄的關鍵字(是),則關鍵字確定單元14輸出控制信號(切換信號)和輔助圖像選擇指令,所述控制信號用于控制在輸入圖像選擇器開關16中將終端B連接到終端S上,所述輔助圖像選擇指令用于讀出輔助圖像。流程前進到步驟S307。
在步驟S307,從關鍵字確定單元14輸出的輔助圖像選擇指令被輸入到輔助圖像選擇單元15。一旦接收到輔助圖像選擇指令,輔助圖像選擇單元15就讓關鍵字對應文件讀取單元31、運動圖像數據抽取單元32和運動圖像格式轉換單元33執(zhí)行該指令。
更具體地說,在步驟S308,關鍵字對應文件讀取單元31從電影文件存儲器件30中讀出電影文件,并將對應于所述關鍵字的讀出電影文件輸出到運動圖像數據抽取單元32。在步驟S309,運動圖像數據抽取單元32從輸出自關鍵字對應文件讀取單元31的、與所述關鍵字相對應的電影文件中抽取圖像數據,并將所抽取的圖像數據輸出到運動圖像格式轉換單元33。在步驟S310,運動圖像格式轉換單元33將從運動圖像數據抽取單元32輸出的輔助運動圖像的運動圖像格式轉換成適于輸入到運動圖像編碼器6的運動圖像格式,并將所述圖像數據輸出到輸入圖像選擇器開關16。
在步驟S313,從輔助圖像選擇單元15輸出的輔助運動圖像通過輸入圖像選擇器開關16的終端B和S被輸入到運動圖像編碼器6。
另一方面,如果在步驟S305中確定在已識別短語數據中未包含任何已登錄關鍵字(否),則關鍵字確定單元14輸出控制信號以控制在輸入圖像選擇器開關16中將終端A連接到終端S上。流程前進到步驟S315。
在步驟S315,從攝像單元4輸出的照相機圖像被輸入到運動圖像編碼器6。
在步驟S317,運動圖像編碼器6通過將從攝像單元4輸出的照相機圖像數據或從輔助圖像選擇單元15輸出的輔助運動圖像數據轉換成適于通過網絡傳輸的格式,從而生成發(fā)送運動圖像數據,并且將該發(fā)送運動圖像數據輸出到復接單元17。
在步驟S319,復接單元17將在步驟S301從話音接收單元3輸出并已由話音編碼器5進行數據格式轉換的發(fā)送話音數據和在步驟S317從運動圖像編碼器6輸出的發(fā)送運動圖像數據復接在一起,并將復接數據輸出到發(fā)送單元7。
在步驟S321,發(fā)送單元7通過信息通信網絡來發(fā)送從復接單元17輸出的復接數據。
與將靜止圖像用作輔助圖像的情況相同,從發(fā)送單元7中發(fā)送的復接數據由接收設備2的接收單元8接收,并被顯示在顯示單元12上。
可將用作輔助圖像的靜止圖像或運動圖像的輔助圖像顯示時間段設置為預定的時間?;蛘?,可預先登錄一個用于結束顯示的專用關鍵字,使得發(fā)送者可以通過說出這個專用關鍵字而結束顯示。更具體地說,當關鍵字匹配單元21找到表示顯示結束的專用關鍵字時,向輸入圖像選擇器開關16輸出用于控制在其內部將終端S連接到終端A的控制信號(特定切換信號),從而在其內部將終端S與A連接起來。從攝像單元4輸出的照相機圖像通過輸入圖像選擇器開關16的終端A和S被輸出到運動圖像編碼器6。
如上所述,在使用實時顯示圖像的通信設備的通信中,可提供一種具有更高可操作性的通信設備和方法,其允許顯示除主圖像之外的輔助圖像,而不必考慮可操作性。另外,可以取得以下效果,即減少與圖像顯示有關的資源的消耗。此外,在以上通信設備和方法中,通過使用簡單的協議就可以實現實時顯示圖像的通信。
第二實施例圖7示出了本發(fā)明第二實施例的示意性設置。在這個實施例中,發(fā)送設備40具有圖像合成單元41,其通過合成照相機輸入圖像和輔助圖像而生成運動圖像數據。在根據這個實施例的電視電話中,一個電視電話設備既包括發(fā)送設備40又包括接收設備2。在后面的描述中,為了便于理解,將省略對發(fā)送側的接收設備以及接收側的發(fā)送設備的描述。在接收側的操作與第一實施例中所描述的基本相同。
參考圖7,這個實施例包括發(fā)送設備40、接收設備2和信息通信網絡。
信息通信網絡能夠使用有線通信或無線通信進行雙向通信數據發(fā)送/接收。
發(fā)送設備40將發(fā)送者所輸入的話音和將要顯示在接收設備2上的圖像轉換成可通過信息通信網絡傳送的數據格式,并將所述數據發(fā)送給接收設備2。
接收設備2通過信息通信網絡接收從發(fā)送設備40發(fā)送的數據,并輸出/顯示所述話音和圖像。
發(fā)送設備40還包括話音接收單元3、攝像單元4、話音編碼器5、運動圖像編碼器6、復接單元17、話音識別單元13、關鍵字確定單元14、輔助圖像選擇單元15、輸入圖像選擇器開關42、圖像合成單元41和發(fā)送單元7。
攝像單元4是一種靜止圖像成像設備例如數碼相機,或者是一種運動圖像成像設備例如攝像機。攝像單元4包括在發(fā)送裝置40中,或與發(fā)送裝置40外部相連。攝像單元4實時攝取發(fā)送者的視頻圖像,將所攝取的圖像轉換成電信號,并將其作為圖像數據輸出到輸入圖像選擇器開關42。
話音接收單元3是一種聲音收集設備,用于收集發(fā)送者所發(fā)出的話音。話音接收單元3包括在發(fā)送裝置40中,或與發(fā)送裝置40外部相連。話音接收單元3實時收集發(fā)送者所發(fā)出的話音,將所收集的話音轉換成電信號,并將轉換后的話音作為話音數據輸出到話音識別單元13和話音編碼器5。
話音識別單元13是這樣一種信息處理功能件,其接收從話音接收單元3輸出的話音數據,并自動識別包含在所接收的話音數據中的短語。這種話音識別處理所識別出的短語作為已識別短語數據而輸出。
關鍵字確定單元14是這樣一種信息處理功能件,其確定從話音識別單元13輸出的已識別短語數據是否與預先登錄的關鍵字一致。關鍵字確定單元14向輸入圖像選擇器開關42輸出控制信號,以有選擇地連接其內部的終端,并且向輔助圖像選擇單元15輸出指令(輔助圖像選擇指令)以選擇一個輔助圖像。輔助圖像選擇指令包含被確定為與已識別短語數據一致的關鍵字??刂菩盘柡洼o助圖像選擇指令是基于關鍵字確定單元14的確定結果而從中輸出的。
輔助圖像選擇單元15接收從關鍵字確定單元14發(fā)送的輔助圖像選擇指令?;谒邮盏妮o助圖像選擇指令,輔助圖像選擇單元15選擇與所述關鍵字相對應的輔助圖像數據,并把它輸出到圖像合成單元41。
圖像合成單元41是這樣一種圖像合成功能件,其通過合成照相機圖像和輔助圖像而生成合成圖像。所生成的合成圖像被輸出到輸入圖像選擇器開關42。
輸入圖像選擇器開關42有選擇地向運動圖像編碼器6輸出從攝像單元4輸出的圖像數據和從圖像合成單元41輸出的合成圖像數據中的至少一個。將被輸出到運動圖像編碼器6的圖像數據由從關鍵字確定單元14輸出的控制信號來完成切換。
運動圖像編碼器6是這樣一種圖像數據轉換功能件,其對數據格式進行轉換,以將從攝像單元4輸出的圖像數據或從圖像合成單元41輸出的合成圖像數據發(fā)送到接收設備2??赏ㄟ^信息通信網絡將運動圖像數據以最佳狀態(tài)傳送到接收設備2的格式被用作轉換格式。
話音編碼器5是這樣一種話音數據轉換功能件,其對數據格式進行轉換,以將從話音接收單元3輸出的話音數據發(fā)送到接收設備2??赏ㄟ^信息通信網絡將話音數據以最佳狀態(tài)傳送到接收設備2的格式被用作轉換格式。
復接單元17是這樣一種數據合成功能件,其將已由運動圖像編碼器6進行數據格式轉換的發(fā)送運動圖像數據和已由話音編碼器5進行數據格式轉換的發(fā)送話音數據復接在一起。復接數據被輸出到發(fā)送單元7。
發(fā)送單元7是一種數據發(fā)送功能件。發(fā)送單元7將從復接單元17輸出的復接數據通過信息通信網絡發(fā)送到接收設備2的接收單元8。
圖8示出了當靜止圖像用作輔助圖像時,關鍵字確定單元14和輔助圖像選擇單元15的內部設置的細節(jié)。除了從輔助圖像選擇單元15的圖像格式轉換單元24而來的合成圖像數據被輸出到圖像合成單元41之外,所述關鍵字確定單元14和輔助圖像選擇單元15具有和圖2中相同的設置。
圖9示出了當運動圖像用作輔助圖像時,關鍵字確定單元14和輔助圖像選擇單元15的內部設置的細節(jié)。除了從輔助圖像選擇單元15的運動圖像格式轉換單元33而來的合成圖像數據被輸出到圖像合成單元41之外,所述關鍵字確定單元14和輔助圖像選擇單元15具有和圖3中相同的設置。
下面將描述這個實施例的操作。圖10示出了這個實施例的操作。
參考圖10,在步驟S401,在這個實施例中所要描述的電視電話的用戶從話音接收單元3輸入用于語音通信的話音。話音接收單元3將在步驟S401中輸入的話音轉換成電信號,并將其作為話音數據輸出到話音識別單元13和話音編碼器5。
在步驟S403,從話音接收單元3輸出的話音數據被輸入到話音識別單元13。話音識別單元13執(zhí)行話音識別處理,以自動地識別出包含在所接收的話音數據中的短語。所識別出的短語被輸出為已識別短語數據。
從話音識別單元13輸出的已識別短語數據被發(fā)送到關鍵字確定單元14。在步驟S405,關鍵字確定單元14確定在已識別短語數據中是否包含已登錄的關鍵字。如果在步驟S405中確定在已識別短語數據中包含已登錄的關鍵字(是),則關鍵字確定單元14向輸入圖像選擇器開關42輸出控制信號(切換信號),用于控制在輸入圖像選擇器開關42中將終端S1連接到終端B1上,并將終端B2連接到終端S2上。關鍵字確定單元14還輸出輔助圖像選擇指令以讀出輔助圖像。流程前進到步驟S407。
在步驟S407,從關鍵字確定單元14輸出的輔助圖像選擇指令被輸入到輔助圖像選擇單元15。當輔助圖像是靜止圖像時,一旦輔助圖像選擇單元15接收到輔助圖像選擇指令,它就讓關鍵字對應圖像讀取單元23和圖像格式轉換單元24執(zhí)行該指令。
更具體地說,在圖11中的步驟S501,關鍵字對應圖像讀取單元23從靜止圖像存儲器件22中讀出與關鍵字相對應的靜止圖像,并將對應于所述關鍵字的讀出輔助圖像輸出到圖像格式轉換單元24。在圖11中的步驟S502,圖像格式轉換單元24將從關鍵字對應圖像讀取單元23輸出的、作為輔助圖像的靜止圖像的圖像格式轉換為適于輸入到運動圖像編碼器6的圖像格式,并將所述圖像數據輸出到圖像合成單元41。
當輔助圖像是運動圖像時,輔助圖像選擇單元15讓關鍵字對應文件讀取單元31、運動圖像數據抽取單元32和運動圖像格式轉換單元33執(zhí)行所述指令。
更具體地說,在圖12中的步驟S601,關鍵字對應文件讀取單元31從電影文件存儲器件30中讀出電影文件,并將對應于所述關鍵字的讀出電影文件輸出到運動圖像數據抽取單元32。在圖12中的步驟S602,數據抽取單元32從輸出自關鍵字對應文件讀取單元31的、與所述關鍵字相對應的電影文件中抽取圖像數據,并將所抽取的圖像數據輸出到運動圖像格式轉換單元33。在圖12中的步驟S603,運動圖像格式轉換單元33將從運動圖像數據抽取單元32輸出的輔助運動圖像的運動圖像格式轉換成適于輸入到運動圖像編碼器6的運動圖像格式,并將所述圖像數據輸出到圖像合成單元41。
在圖10中的步驟S409,圖像合成單元41將輔助圖像選擇單元15所選擇的靜止圖像或運動圖像與從攝像單元輸出的照相機圖像合成在一起,以生成合成圖像,并將該合成圖像輸出到輸入圖像選擇器開關42。
在步驟S411,從圖像合成單元41通過輸入圖像選擇器開關42的終端B2和S2而輸出的合成圖像被輸入到運動圖像編碼器6。
另一方面,如果在步驟S405中確定在已識別短語數據中未包含任何已登錄關鍵字(否),則關鍵字確定單元14輸出控制信號以控制在輸入圖像選擇器開關42中將終端S1連接到終端A1,并將終端A2連接到終端S2。流程前進到步驟S413。
在步驟S413,攝像單元4所攝取的照相機圖像通過終端S1、A1、A2和S2被輸入到運動圖像編碼器6。
在步驟S415,運動圖像編碼器6通過將從攝像單元4輸出的照相機圖像或從圖像合成單元41輸出的合成圖像轉換成適于通過網絡傳輸的格式,從而生成發(fā)送運動圖像數據,并且將該發(fā)送運動圖像數據輸出到復接單元17。
在步驟S417,復接單元17將在步驟S401從話音接收單元3輸出并已由話音編碼器5進行數據格式轉換的發(fā)送話音數據和在步驟S415從運動圖像編碼器6輸出的發(fā)送運動圖像數據復接在一起,并將復接數據輸出到發(fā)送單元7。
在步驟S419,發(fā)送單元7通過信息通信網絡發(fā)送從復接單元17輸出的復接數據。
如同第一實施例一樣,從發(fā)送單元7中發(fā)送的復接數據由接收設備2的接收單元8接收,并被顯示在顯示單元12上。
可將用作輔助圖像的靜止圖像或運動圖像的輔助圖像顯示時間段設置為預定的時間?;蛘?,可預先登錄一個用于結束顯示的專用關鍵字,使得發(fā)送者可以通過說出這個專用關鍵字而結束顯示。更具體地說,當關鍵字匹配單元21找到表示顯示結束的專用關鍵字時,向輸入圖像選擇器開關42輸出用于控制在其內部將終端S1連接到終端A1,并將終端S2連接到終端A2的控制信號(特定切換信號),從而將終端S1連接到終端A1,并將終端S2連接到終端A2。從攝像單元4輸出的照相機圖像通過輸入圖像選擇器開關42的終端S1和A1以及終端A2和S2被輸出到運動圖像編碼器6。
如上所述,在使用實時顯示圖像的通信設備的通信中,可提供一種具有更高可操作性的通信設備和方法,其允許顯示除主圖像之外的輔助圖像,而不必考慮可操作性。另外,可以取得以下效果,即減少與圖像顯示有關的資源的消耗。此外,在以上通信設備和方法中,通過使用簡單的協議就可以實現實時顯示圖像的通信。
權利要求
1.一種通信設備(1),其特征在于包括攝像裝置(4),用于攝取照相機圖像;話音識別裝置(13),用于從輸入的話音中識別短語;關鍵字檢測裝置(14),用于檢測在已登錄的關鍵字和從所述話音識別裝置(13)中輸出的短語之間的一致性;輔助圖像選擇裝置(15),用于響應于來自所述關鍵字檢測裝置的一致性檢測輸出,選擇與所述已登錄的關鍵字相關的特定輔助圖像;輸入圖像切換裝置(16),用于響應于所述一致性檢測輸出,在從所述攝像裝置中輸出的照相機圖像和包含從所述輔助圖像選擇裝置中輸出的輔助圖像的圖像中有選擇地輸出兩者之一;和發(fā)送裝置(7),用于發(fā)送所述輸入的話音和從所述輸入圖像切換裝置中輸出的圖像。
2.如權利要求1所述的設備,其中,所述輔助圖像選擇裝置包括靜止圖像存儲裝置(22),用于預先存儲與已登錄的關鍵字相關的特定靜止圖像;圖像讀取裝置(23),用于響應于所述一致性檢測輸出,從所述靜止圖像存儲裝置中讀出與已登錄的關鍵字相關的特定靜止圖像;和圖像格式轉換裝置(24),用于轉換所述圖像讀取裝置所讀出的靜止圖像的圖像格式,并將所述靜止圖像作為所述輔助圖像輸出到所述輸入圖像切換裝置。
3.如權利要求1所述的設備,其中,所述輔助圖像選擇裝置包括電影文件存儲裝置(30),用于存儲包含與已登錄的關鍵字相關的運動圖像數據的電影文件;電影文件讀取裝置(31),用于響應于所述一致性檢測輸出,從所述電影文件存儲裝置中讀出與已登錄的關鍵字相關的特定電影文件;運動圖像數據抽取裝置(32),用于從所述電影文件讀取裝置所讀出的電影文件中抽取運動圖像數據;和運動圖像格式轉換裝置(33),用于轉換所述運動圖像數據抽取裝置所抽取的運動圖像數據的運動圖像格式,并將所述運動圖像數據作為所述輔助圖像輸出到所述輸入圖像切換裝置。
4.如權利要求1所述的設備,其中,所述關鍵字檢測裝置響應于所述一致性檢測輸出,向所述輸入圖像切換裝置輸出切換信號,并且所述輸入圖像切換裝置響應于從所述關鍵字檢測裝置中輸出的切換信號,將所要輸出的圖像從所述照相機圖像切換到包含輔助圖像的所述圖像。
5.如權利要求4所述的設備,其中,所述關鍵字檢測裝置響應于檢測到某一短語和特定關鍵字之間的一致性,向所述輸入圖像切換裝置輸出特定的切換信號,并且所述輸入圖像切換裝置響應于從所述關鍵字檢測裝置輸出的特定切換信號,將所要輸出的圖像從包含輔助圖像的所述圖像切換到所述照相機圖像。
6.如權利要求1所述的設備,還包括圖像合成裝置(41),用于響應于所述一致性檢測輸出,將從所述攝像裝置輸出的照相機圖像與從所述輔助圖像選擇裝置輸出的輔助圖像合成在一起,以生成合成圖像,并將所述合成圖像輸出到所述輸入圖像切換裝置(42),其中,所述輸入圖像切換裝置響應于所述一致性檢測輸出,在從所述攝像裝置輸出的照相機圖像和從所述圖像合成裝置輸出的合成圖像之間進行切換,并將所切換的圖像輸出到所述發(fā)送裝置。
7.如權利要求6所述的設備,其中,所述輔助圖像選擇裝置包括靜止圖像存儲裝置(22),用于預先存儲與已登錄的關鍵字相關的特定靜止圖像,圖像讀取裝置(23),用于響應于所述一致性檢測輸出,從所述靜止圖像存儲裝置中讀出與已登錄的關鍵字相關的特定靜止圖像,和圖像格式轉換裝置(24),用于轉換所述圖像讀取裝置所讀出的靜止圖像的圖像格式,并將所述靜止圖像作為所述輔助圖像輸出到所述圖像合成裝置。
8.如權利要求6所述的設備,其中,所述輔助圖像選擇裝置包括電影文件存儲裝置(30),用于存儲包含與已登錄的關鍵字相關的運動圖像數據的電影文件,電影文件讀取裝置(31),用于響應于所述一致性檢測輸出,從所述電影文件存儲裝置中讀出與已登錄的關鍵字相關的特定電影文件,運動圖像數據抽取裝置(32),用于從所述電影文件讀取裝置所讀出的電影文件中抽取運動圖像數據,和運動圖像格式轉換裝置(33),用于轉換所述運動圖像數據抽取裝置所抽取的運動圖像數據的運動圖像格式,并將所述運動圖像數據作為所述輔助圖像輸出到所述圖像合成裝置。
9.如權利要求6所述的設備,其中,所述關鍵字檢測裝置響應于所述一致性檢測輸出,向所述輸入圖像切換裝置輸出切換信號,并且所述輸入圖像切換裝置響應于從所述關鍵字檢測裝置中輸出的切換信號,將所要輸出的圖像從所述照相機圖像切換到所述合成圖像。
10.如權利要求6所述的設備,其中,所述關鍵字檢測裝置響應于檢測到某一短語和特定關鍵字之間的一致性,向所述輸入圖像切換裝置輸出特定的切換信號,并且所述輸入圖像切換裝置響應于從所述關鍵字檢測裝置輸出的特定切換信號,將所要輸出的圖像從所述合成圖像切換到所述照相機圖像。
11.一種通信方法,其特征在于包括以下步驟攝取照相機圖像;從輸入的話音中識別短語(S103,S303);檢測所述短語和已登錄的關鍵字之間的一致性(S105,S305);響應于一致性檢測輸出,選擇與所述已登錄的關鍵字相關的特定輔助圖像(S107,S307);響應于所述一致性檢測輸出,在所述所攝取的照相機圖像和包含所述所選擇的輔助圖像的圖像中有選擇地輸出兩者之一(步驟S111,S113,S313,S315);以及發(fā)送所述的輸出照相機圖像和所述輔助圖像中的一個(S119,S321)。
12.如權利要求11所述的方法,其中,所述輔助圖像選擇步驟包括以下步驟響應于所述一致性檢測輸出,讀出與所述已登錄的關鍵字相關的特定靜止圖像(S108),以及轉換所述讀出靜止圖像的圖像格式,并將所述靜止圖像作為所述輔助圖像而輸出(S109)。
13.如權利要求11所述的方法,其中,所述輔助圖像選擇步驟包括以下步驟響應于所述一致性檢測輸出,讀出與所述已登錄的關鍵字相關的特定電影文件(S308),從所述讀出電影文件中抽取運動圖像數據(S309),以及轉換所抽取的運動圖像數據的運動圖像格式,并將所述運動圖像數據作為所述輔助圖像而輸出(S310)。
14.如權利要求11所述的方法,其中,所述有選擇輸出的步驟包括以下步驟響應于所述一致性檢測輸出,輸出切換信號,以及響應于所述切換信號,將所要輸出的圖像從所述照相機圖像切換到包含所述輔助圖像的所述圖像。
15.如權利要求11所述的方法,其中,所述有選擇輸出的步驟包括以下步驟響應于檢測到短語和特定關鍵字之間的一致性,輸出特定的切換信號,以及響應于所述特定的切換信號,將所要輸出的圖像從包含所述輔助圖像的所述圖像切換到所述照相機圖像。
16.如權利要求11所述的方法,還包括以下步驟,即將所述所攝取的照相機圖像與所述所選擇的輔助圖像合成在一起,以生成合成圖像(S409),其中,在所述有選擇輸出的步驟中,有選擇地輸出所述照相機圖像和所述合成圖像中的一個。
17.如權利要求16所述的方法,其中,所述輔助圖像選擇步驟包括以下步驟響應于所述一致性檢測輸出,讀出與所述已登錄的關鍵字相關的特定靜止圖像(S501),以及轉換所述讀出靜止圖像的圖像格式,并將所述靜止圖像作為所述輔助圖像而輸出(S502)。
18.如權利要求16所述的方法,其中,所述輔助圖像選擇步驟包括以下步驟響應于所述一致性檢測輸出,讀出與所述已登錄的關鍵字相關的特定電影文件(S601),從所述讀出電影文件中抽取運動圖像數據(S602),以及轉換所抽取的運動圖像數據的運動圖像格式,并將所述運動圖像數據作為所述輔助圖像而輸出(S603)。
19.如權利要求16所述的方法,其中,所述有選擇輸出的步驟包括以下步驟響應于所述一致性檢測輸出,輸出切換信號,以及響應于所述切換信號,將所要輸出的圖像從所述照相機圖像切換到所述合成圖像。
20.如權利要求16所述的方法,其中,所述有選擇輸出的步驟包括以下步驟響應于檢測到短語和特定關鍵字之間的一致性,輸出特定的切換信號,以及響應于所述特定的切換信號,將所要輸出的圖像從所述合成圖像切換到所述照相機圖像。
全文摘要
本發(fā)明提供的通信設備包括攝像單元、話音識別單元、關鍵字檢測單元、輔助圖像選擇單元、輸入圖像選擇器開關和發(fā)送單元。攝像單元攝取照相機圖像。話音識別單元從輸入話音中識別短語。關鍵字檢測單元檢測已登錄關鍵字和從話音識別單元輸出的短語之間的一致性。輔助圖像選擇單元響應于來自關鍵字檢測單元的一致性檢測輸出,選擇與已登錄的關鍵字相關的特定輔助圖像。響應于一致性檢測輸出,輸入圖像選擇器開關有選擇地輸出從攝像單元輸出的照相機圖像和包含從輔助圖像選擇單元輸出的輔助圖像的圖像中的一個。發(fā)送單元發(fā)送輸入的話音和從輸入圖像選擇器開關中輸出的圖像。還公開了一種通信方法。
文檔編號G10L15/26GK1551630SQ20041003790
公開日2004年12月1日 申請日期2004年5月10日 優(yōu)先權日2003年5月13日
發(fā)明者米田倫子 申請人:日本電氣株式會社