專利名稱:在視頻會(huì)議中增加翻譯的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻會(huì)議通信,更具體地涉及多語言多點(diǎn)視頻會(huì)議領(lǐng)域。
背景技術(shù):
視頻會(huì)議可以去除許多限制。視頻會(huì)議可以去除的一種物理限制是從一個(gè)地點(diǎn) (端點(diǎn)/終端)到另一地點(diǎn)的物理距離。視頻會(huì)議可以產(chǎn)生來自世界不同地方的與會(huì)者 (conferee)如同在一個(gè)房間里一樣的體驗(yàn)。視頻會(huì)議使得全世界的人們能夠容易地彼此通信而不需要從一個(gè)地方旅行到另一地方,而旅行是昂貴、耗時(shí)并且污染空氣的(由于需要使用汽車和/或飛機(jī))。視頻會(huì)議可以去除時(shí)間因素以及距離限制。隨著可以在不同網(wǎng)絡(luò)上使用的視頻會(huì)議設(shè)備種類的增加,越來越多的人使用視頻會(huì)議作為其通信工具。在許多情況下,視頻會(huì)議可以是多語言會(huì)議,會(huì)議中來自全球不同地方的人們需要以多種語言彼此說話。在端點(diǎn)位于不同國家、以不同語言發(fā)言的多點(diǎn)視頻會(huì)議中,會(huì)議中的一些與會(huì)者可能需要以不是其母語的語言發(fā)言以便能夠溝通和理解其它地點(diǎn)(端點(diǎn))的與會(huì)者。有時(shí),即使說相同語言但是有不同口音的人也可能在理解其他與會(huì)者上存在問題。 這種情況可能導(dǎo)致理解上的不方便和/或錯(cuò)誤。在一些其他會(huì)議中,一個(gè)或多個(gè)與會(huì)者可能具有聽力問題(例如,聾或聽力損傷的人)。聾或聽力損傷的人可能僅在其可以讀出發(fā)言者的嘴唇時(shí)才能有效地參與視頻會(huì)議, 這在發(fā)言人沒有出現(xiàn)在顯示器上或縮放無效等情況下變得困難。聽力損傷或講外語的與會(huì)者所使用的一種技術(shù)是依賴人類口譯者傳達(dá)會(huì)議的內(nèi)容。典型地,口譯者站得靠近與會(huì)者所處的會(huì)議室前部,以使聽力損傷者觀看口譯者。另一種使用的技術(shù)是在一個(gè)或多個(gè)端點(diǎn)使用閉路字幕引擎。一個(gè)或多個(gè)閉路字幕輸入裝置可以與一個(gè)或多個(gè)端點(diǎn)相關(guān)聯(lián)。閉路字幕輸入裝置可以是計(jì)算機(jī)輔助轉(zhuǎn)錄裝置, 例如,計(jì)算機(jī)輔助實(shí)施翻譯器、個(gè)人數(shù)字助理(PDA)、通用個(gè)人計(jì)算機(jī)等。為了啟動(dòng)閉路字幕特征,字幕員的端點(diǎn)的IP地址在閉路字幕輸入裝置的網(wǎng)絡(luò)瀏覽器的字段中被輸入。與該端點(diǎn)相關(guān)聯(lián)的網(wǎng)頁將顯示,以及用戶可以訪問相關(guān)聯(lián)的閉路字幕頁面。一旦字幕員選擇閉路字幕頁面,字幕員可以開始將文字輸入該當(dāng)前字段中。文字然后被顯示給參加視頻會(huì)議的一個(gè)或多個(gè)端點(diǎn)。例如,文字可以被顯示給第一端點(diǎn)、計(jì)算裝置、個(gè)人數(shù)字助理(PDA)等。字幕員可以選擇向誰顯示閉路字幕。字幕員可以決定在參加會(huì)議的所有地點(diǎn)顯示文字,除了例如位置2和3。又例如,用戶可以選擇僅在位置5顯示閉路字幕文字。換句話說,閉路字幕文字可以被組播給字幕員選擇的與會(huì)者。如上所討論的,例如,字幕員可以通過輸入特定端點(diǎn)的IP地址來訪問網(wǎng)頁。閉路字幕文字輸入頁面被顯示以接收閉路字幕文字。字幕員通過閉路字幕輸入裝置將文字輸入到當(dāng)前文字輸入框中。當(dāng)字幕員點(diǎn)擊屏幕上或閉路字幕輸入裝置上的“輸入”或類似按鈕時(shí),在當(dāng)前文字輸入框中輸入的文字被顯示給與視頻會(huì)議相關(guān)聯(lián)的一個(gè)或多個(gè)端點(diǎn)。在多語言視頻會(huì)議中,為聽力損傷者服務(wù)的人類口譯者可能面臨一些問題。例如, 一個(gè)問題可能發(fā)生在一個(gè)以上的人在說話的情況下。人類口譯者將不得不決定將哪個(gè)發(fā)言者翻譯給聽力損傷的聽眾,以及如何指出當(dāng)前正被翻譯的發(fā)言者。依賴人類翻譯員也可能降低視頻會(huì)議的體驗(yàn),因?yàn)樵跁?huì)議混音中,翻譯員的音頻可能與正被翻譯的人的音頻同時(shí)被聽見。在需要多于一個(gè)人類翻譯員同時(shí)翻譯的情況下, 這種煩擾可能是不能容忍的。此外,在長會(huì)議中,人類翻譯員的注意力降低,并且翻譯員可能開始出錯(cuò),并在會(huì)議期間暫停。此外,在使用由字幕員啟動(dòng)閉路字幕的情況下,字幕員輸入翻譯作為顯示文字,字幕員必須能夠識別誰應(yīng)當(dāng)看見閉路字幕文字。字幕員還必須輸入文字以顯示給與視頻會(huì)議相關(guān)的一個(gè)或多個(gè)端點(diǎn)。因此,字幕員必須總是警惕,并且努力不犯人為錯(cuò)誤。多點(diǎn)控制單元(MCU)可以被用于管理視頻通信會(huì)議(即,視頻會(huì)議)。MCU是可以位于網(wǎng)絡(luò)節(jié)點(diǎn)、終端或其它地方的會(huì)議控制實(shí)體。MCU可以根據(jù)一定標(biāo)準(zhǔn)從訪問端口接收和處理多個(gè)媒體通道,并通過其他端口將它們分配至所連接的通道。MCU的示例包括由 Polycom公司提供的MGC-100,RMX2000 (RMX 2000是Polycom公司的注冊商標(biāo))。通用的 MCU在多個(gè)專利和專利申請中公開,例如,美國專利第6,300,973、6,496,216、5,600,646、 5,838,664和/或7,542, 068號,其全部內(nèi)容通過引用結(jié)合于此。一些MCU由兩個(gè)邏輯模塊組成媒體控制器(MC)和媒體處理器(MP)。終端(可以被稱作端點(diǎn))可以是網(wǎng)絡(luò)上的實(shí)體,能夠提供與其他終端或與MCU的實(shí)時(shí)、雙向音頻和/或視聽通信。端點(diǎn)(終端)和MCU的更全面的定義可以在國際電信聯(lián)盟(“ITU”)標(biāo)準(zhǔn)中找到,例如但不限于,H. 320,H. 324,和H. 323,可以在ITU中找到它們。連續(xù)呈現(xiàn)(continuous presence,CP)視頻會(huì)議是一個(gè)終端處的與會(huì)者可以同時(shí)觀看會(huì)議中的多個(gè)其他與會(huì)者的地點(diǎn)的視頻會(huì)議。每個(gè)地點(diǎn)可以顯示在布局的不同塊 (segment)中,每個(gè)塊可以是相同大小或不同大小的一個(gè)或多個(gè)顯示器。被顯示并且與布局的多個(gè)塊相關(guān)聯(lián)的地點(diǎn)的選擇在參加相同會(huì)議的不同與會(huì)者之間可以不同。在連續(xù)呈現(xiàn) (CP)布局中,從地點(diǎn)接收的視頻圖像被縮小和/或剪修以適合塊的大小。
發(fā)明內(nèi)容
下面描述的實(shí)施例解決了多語言視頻會(huì)議中的上述一些缺點(diǎn)。然而,視頻會(huì)議中的上述缺點(diǎn)不以任何方式限制本發(fā)明概念的范圍。缺點(diǎn)被呈現(xiàn)僅用于示例。在一個(gè)實(shí)施例中,可以在多點(diǎn)控制單元(MCU)中實(shí)現(xiàn)新穎的系統(tǒng)和方法,將具有其所有有點(diǎn)的通用MCU轉(zhuǎn)換為多語言翻譯視頻會(huì)議MCU (MLTV-MCU)。在多語言翻譯視頻會(huì)議(MLTV-MCU)的一個(gè)實(shí)施例中,MLTV-MCU可以被通知多點(diǎn)視頻會(huì)議中的一個(gè)或多個(gè)接收到的音頻流中哪些音頻流需要被翻譯,以及不同的音頻流需要被翻譯成的語言。MLTV-MCU可以將每種需要的音頻流翻譯成一種或多種期望的語言,而不需要人類干預(yù)。MLTV-MCU可以將一個(gè)或多個(gè)音頻流的一種或多種翻譯在一個(gè)或多個(gè)端點(diǎn)屏幕上顯示為字幕(舉例而言)。MLTV-MCU的一個(gè)實(shí)施例可以利用MLTV-MCU接收來自每個(gè)端點(diǎn)的分離的音頻流這一點(diǎn)。因此,MLTV-MCU可以分別地翻譯每個(gè)接收到的音頻流,然后將這些流混合在一起,從而確保高質(zhì)量的音頻流翻譯。當(dāng)與會(huì)者參加多點(diǎn)會(huì)議時(shí),MLTV-MCU可以詢問是否需要翻譯。在一個(gè)實(shí)施例中, 這種詢問可以在交互式聲音響應(yīng)(IVR)會(huì)議中實(shí)現(xiàn),在該會(huì)議中,與會(huì)者可以被指示按下特定鍵以響應(yīng)特定問題。在使用“點(diǎn)擊和查看(click and view)”選項(xiàng)的其他實(shí)施例中,在與會(huì)者的端點(diǎn)上可以顯示菜單。該菜單可以提供不同翻譯選項(xiàng)。選項(xiàng)可以涉及語言和相關(guān)地點(diǎn),例如與會(huì)者的語言;與會(huì)者的發(fā)言將被翻譯成的語言;其音頻將被翻譯成與會(huì)者的語言的端點(diǎn);與會(huì)者期望翻譯成的語言;書面翻譯,使用字幕,還是有聲翻譯;如果是有聲翻譯,翻譯是女聲還是男聲,以何種口音等等。與會(huì)者例如可以通過使用游標(biāo)來響應(yīng)這些問題。一種點(diǎn)擊和查看方法的示例在美國專利第7,542, 068號中具體公開,其全部內(nèi)容通過引用結(jié)合于此。一種MLTV-MCU示例可以使用聲音校準(zhǔn)階段,在該階段,可以使用IVR或其他技術(shù)要求在相關(guān)地點(diǎn)的與會(huì)者“說出你的名字”,并且再說幾個(gè)預(yù)定詞,前者在連續(xù)呈現(xiàn)(CP)視頻會(huì)議中是通用程序。在聲音校準(zhǔn)階段,MLTV-MCU可以收集與需要被翻譯的聲音的特征 (口音)有關(guān)的信息。這可以通過要求與會(huì)者說預(yù)定數(shù)量的詞(例如“good morning”、 、^”、“110”、“(1對”等等)來完成。校準(zhǔn)信息可以被保存在數(shù)據(jù)庫中供將來使用。在一些實(shí)施例中,校準(zhǔn)階段可以被用于識別接收到的音頻流的語言。在這樣的實(shí)施例中,接收者端點(diǎn)可以指示MLTV-MCU將以特定語言(例如英文)發(fā)言的任何端點(diǎn)翻譯成例如中文。這樣的MLTV-MCU可以將接收到的校準(zhǔn)詞的音頻串與查找表中的多個(gè)條目進(jìn)行比較。該查找表可以包括不同語言的預(yù)定詞串。當(dāng)接收到在接收到的音頻串和查找表中的條目之間的匹配時(shí),MLTV-MCU可以自動(dòng)確定接收的音頻流的語言。MLTV-MCU可以訪問數(shù)據(jù)庫,它可以在數(shù)據(jù)庫中存儲(chǔ)信息以供未來使用。MLTV-MCU的另一實(shí)施例可以使用自動(dòng)識別接收到的音頻流的語言的商業(yè)產(chǎn)品。關(guān)于自動(dòng)語言識別的信息可以在M. Sugiyama的題目為"Automatic language recognitionusing acoustic features,,的文章中找到,其出片反在 1991 年的 International Conference on Acoustics,Speech and Signal Processing 的論文集中。在一些實(shí)施例中,可以采用反饋機(jī)制來通知與會(huì)者關(guān)于與會(huì)者語言的自動(dòng)識別,允許與會(huì)者推翻(override)該自動(dòng)決定。這種指示和推翻信息可以通過使用“點(diǎn)擊和查看”選項(xiàng)來執(zhí)行。MLTV-MCU可以被配置為同時(shí)將多個(gè)接收到的音頻流翻譯并顯示為字幕。將被翻譯的多個(gè)接收到的音頻流在一個(gè)實(shí)施例中可以是音頻能量高于一定閾值的預(yù)定數(shù)量的音頻流。例如,該預(yù)定數(shù)量可以在3至5的范圍內(nèi)。在一個(gè)實(shí)施例中,將被翻譯的音頻流可以是來自用戶請求MLTV-MCU翻譯的端點(diǎn)的音頻流。每個(gè)音頻流翻譯可以被顯示在不同行上或由不同指示器來區(qū)分。在一個(gè)實(shí)施例中,指示器可以包括針對每個(gè)音頻流具有不同顏色的字幕,在字幕的開始處具有已經(jīng)被翻譯的與會(huì)者/端點(diǎn)的名稱。當(dāng)前被選擇要混合的音頻流的字幕可以用粗體顯示。主發(fā)言者可以以下劃線和粗體來標(biāo)記??梢愿鶕?jù)接收/測量到的信號能量為每個(gè)音頻流翻譯字幕使用不同的字體大小。在一個(gè)實(shí)施例中,主發(fā)言者可以是音頻能量水平高于其他與會(huì)者的音頻能量達(dá)一定時(shí)間段的一定百分比的與會(huì)者。主發(fā)言者的視頻圖像可以顯示在CP視頻圖像的最大窗口中。在一些實(shí)施例中,主發(fā)言者的窗口可以用彩色框標(biāo)記。一旦MLTV-MCU已經(jīng)識別出需要翻譯的音頻流,識別出該音頻流的語言,以及識別出該音頻流將被翻譯成的語言,MLTV-MCU就可以將音頻流轉(zhuǎn)換為書面文字。在該實(shí)施例中, MLTV-MCU可以訪問將音頻流轉(zhuǎn)換為文字的語音至文字引擎(STTE)。STTE可以使用商業(yè)上可用的部件,例如由微軟公司提供的Microsoft SpeechSDK,國際商用機(jī)器公司提供的IBM Embedded ViaVoice,以及其他。MLTV-MCU的一個(gè)實(shí)施例可以利用MLTV-MCU接收來自每個(gè)端點(diǎn)的分離的音頻流這一點(diǎn)。因此,MLTV-MCU可以在將流混合在一起之前,分別地將每個(gè)需要的接收到的音頻流轉(zhuǎn)換為文字,以提升音頻流轉(zhuǎn)換為文字的質(zhì)量。在MLTV-MCU的一個(gè)實(shí)施例中,音頻流可以在被傳輸至STTE之前,通過一個(gè)或多個(gè)通用MCU噪聲過濾器,過濾音頻流以改進(jìn)來自STTE 的結(jié)果的質(zhì)量。MCU音頻模塊可以區(qū)分嗓音和非嗓音。因此,在一個(gè)實(shí)施例中,MCU可以去除音頻流的非嗓音部分,以及進(jìn)一步確保高質(zhì)量結(jié)果。在一個(gè)實(shí)施例中,MLTV-MCU可以進(jìn)一步包括反饋機(jī)制,在其中,與會(huì)者可以接收關(guān)于與會(huì)者話語的翻譯的可視的評估指示。如果STTE可以以兩種不同方式翻譯與會(huì)者的語音,其可以報(bào)告其可信度指示,例如,50%的可信度指示。STTE可以向MLTV-MCU報(bào)告其可信度評估,而MLTV-MCU可以將其作為等級顯示在與會(huì)者的屏幕上。在另一個(gè)實(shí)施例中, MLTV-MCU可以在發(fā)言與會(huì)者的顯示器上顯示STTE已經(jīng)轉(zhuǎn)換的文字(以原始語言),從而能夠?qū)崿F(xiàn)一種類型的發(fā)言者反饋,用于驗(yàn)證STTE的轉(zhuǎn)換。在一些實(shí)施例中,當(dāng)STTE不能成功轉(zhuǎn)換某個(gè)聲音段時(shí),可以向發(fā)言者和/或字幕的接收者發(fā)送指示。在音頻流已經(jīng)被STTE轉(zhuǎn)換為文字之后,MLTV-MCU的一個(gè)實(shí)施例可以由翻譯引擎 (TE)將該文字翻譯為另一種語言。不同的翻譯引擎(TE)可以被不同的實(shí)施例使用。在一些實(shí)施例中,TE可以是網(wǎng)站,例如GOOGLE Translate (Google是谷歌公司的注冊商標(biāo)),以及YAHOOpBabel fish網(wǎng)站(ΥΑΗ00 !是雅虎公司的注冊商標(biāo))。其他實(shí)施例可以使用例如由Babylon Ltd.提供的商業(yè)翻譯引擎。翻譯引擎可以是MLTV-MCU的一部分, 或在替換實(shí)施例中,MLTV-MCU可以訪問翻譯引擎,或兩者。MLTV-MCU可以同時(shí)將不同語言的一種或多種文字翻譯為不同語言的一種或多種文字。翻譯文字可以由MLTV-MCU以適當(dāng)定時(shí)安排順序,以便在適當(dāng)端點(diǎn)上以適當(dāng)格式顯示為字幕。MLTV-MCU可以在每個(gè)端點(diǎn)屏幕上同時(shí)顯示一個(gè)或多個(gè)其他與會(huì)者的字幕。字幕可以是不同音頻流的翻譯文字,例如每個(gè)音頻流可以具有不同語言。在一些實(shí)施例中,MCU可以延遲音頻流,以使音頻和視頻流同步(因?yàn)橐曨l處理比音頻處理花費(fèi)更長的時(shí)間)。因此,MLTV-MCU的一個(gè)實(shí)施例可以為語音至文字轉(zhuǎn)換和翻譯使用延遲,從而使得字幕與視頻和音頻同步。在一些實(shí)施例中,MLTV-MCU可以被配置為同時(shí)翻譯不同的接收到的音頻流,但是僅將音頻能量高于預(yù)定值的音頻流顯示為字幕。在另一實(shí)施例中,與會(huì)者(參加者/端點(diǎn))可以書寫文字或?qū)嫖淖职l(fā)送至 MLTV-MCU。MLTV-MCU可以將所接收到的書面文字轉(zhuǎn)換為預(yù)定信號能量的音頻流,并在混音器中混合該音頻流。書面文字例如可以是接收到的音頻流的翻譯,等等。在另一實(shí)施例中, MLTV-MCU可以將文字翻譯成另一語言,將翻譯的文字轉(zhuǎn)換為預(yù)定信號能量的音頻流,以及在混音器中混合該音頻流。MLTV-MCU可以包括可將文字轉(zhuǎn)換為語音的部件(文字至語音引擎),或者其可以訪問這樣的部件或網(wǎng)絡(luò)服務(wù)路,或上述的兩種選項(xiàng)。在這樣的實(shí)施例中,其音頻沒有被翻譯的與會(huì)者的音頻可以在混合之前被延遲,以使音頻與翻譯的流同步。在翻譯被轉(zhuǎn)換為語音的MLTV-MCU的一個(gè)實(shí)施例中,語音音量可以遵循接收到的音頻流的音頻能量指示。
在一個(gè)實(shí)施例中,被轉(zhuǎn)換并翻譯成文字的音頻可以被保存為會(huì)議稿。會(huì)議稿例如可以被用作會(huì)議概要。會(huì)議稿可以包括被轉(zhuǎn)換成了文字的每個(gè)音頻的文字,或主發(fā)言者的音頻的文字等。會(huì)議稿可以被發(fā)送給不同端點(diǎn)。每個(gè)端點(diǎn)可以接收與會(huì)者所選擇的語言的會(huì)議稿。在會(huì)議稿中,可以具有關(guān)于哪些文字是由哪個(gè)與會(huì)者所講、哪些文字被收聽(在會(huì)議電話中被混合)、哪些文字沒有被所有與會(huì)者收聽等等的指示。指示可以包括在行的開頭指出音頻被轉(zhuǎn)換為文字的人的姓名;為主發(fā)言者的文字使用粗體;根據(jù)測得的音頻信號能量使用不同字體大?。坏鹊?。根據(jù)附圖和具體描述,本公開的這些和其他方面將清楚明白。上述概述不旨在總結(jié)每個(gè)可能的實(shí)施例或本發(fā)明的每個(gè)方面,本發(fā)明的其他特征和優(yōu)點(diǎn)將在閱讀下面的具體實(shí)施方式
和附圖以及所附權(quán)利要求之后變得清楚明白。此外,盡管詳細(xì)描述了特定實(shí)施例以向本領(lǐng)域技術(shù)人員示出發(fā)明原理,但是這些實(shí)施例容易具有各種修改和替換形式。因此,附圖和書面描述不旨在以任何方式限制本發(fā)明的范圍。
附圖被結(jié)合并構(gòu)成本說明書的一部分,與具體描述一起示出了符合本發(fā)明的裝置和方法的實(shí)施方式,用于解釋符合本發(fā)明的優(yōu)點(diǎn)和原理。附圖中圖1是示出了根據(jù)一個(gè)實(shí)施例的多媒體多點(diǎn)會(huì)議系統(tǒng)的一部分的框圖;圖2示出了具有根據(jù)一個(gè)實(shí)施例的多語言翻譯視頻會(huì)議MCU(MLTV-MCU)的一部分的相關(guān)元件的框圖;圖3示出了具有根據(jù)一個(gè)實(shí)施例的MLTV-MCU中的音頻模塊的一部分的相關(guān)元件的框圖;圖4A和4B示出了根據(jù)一個(gè)實(shí)施例的具有添加的字幕的MLTV-MCU的布局顯示;圖5是示出了根據(jù)一個(gè)實(shí)施例的音頻翻譯控制過程的相關(guān)步驟的流程圖;以及圖6是示出了根據(jù)一個(gè)實(shí)施例的菜單生成器控制過程的相關(guān)步驟的流程圖。
具體實(shí)施例方式在下面的描述中,為了解釋的目的,大量特定細(xì)節(jié)被闡述以提供對本發(fā)明的透徹理解。然而,顯然對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明不需要這些特定細(xì)節(jié)也可以被實(shí)施。 在其他情況下,以框圖形式示出了結(jié)構(gòu)和裝置以避免模糊本發(fā)明。沒有下標(biāo)的參考標(biāo)號被理解為涉及對應(yīng)于該參考標(biāo)號的所有下標(biāo)的情況。此外,在本公開中使用的語言主要被選擇用于可讀性和指導(dǎo)的目的,并且可能沒有被選擇用于勾勒或限制發(fā)明主題,而是有必要憑借權(quán)利要求來確定這樣的發(fā)明主題。在該說明書中,提到“一個(gè)實(shí)施例”或“實(shí)施例”表示結(jié)合這些實(shí)施例描述的特定特征、結(jié)構(gòu)或特性被包括在本發(fā)明的至少一個(gè)實(shí)施例中,而多次提到“一個(gè)實(shí)施例”或“實(shí)施例”不應(yīng)被理解為必然都指相同實(shí)施例。盡管下面的一些描述以涉及軟件或固件的角度被描述,但是實(shí)施例可以根據(jù)需要以軟件、固件或硬件的形式,包括軟件、固件和硬件的任意組合,來實(shí)施在此描述的特征和功能。提到后臺(tái)程序(daemon)、驅(qū)動(dòng)、引擎、模塊或例程不應(yīng)被理解為暗示將該實(shí)施例限制到任何類型的實(shí)施方式。
現(xiàn)在轉(zhuǎn)向附圖,其中貫穿所描述的多個(gè)視圖、示例性實(shí)施例、公開的方法、系統(tǒng)和裝置的各方面和特征,類似的標(biāo)號表示類似的部件。為了方便,相同組中可能僅有一些部件被標(biāo)號標(biāo)注。附圖的目的是描述示例性實(shí)施例而不是用于限制或生產(chǎn)用途。圖中示出的特征被選擇僅僅是為了描述的方便和簡潔。圖1示出了具有根據(jù)一個(gè)實(shí)施例的多媒體多點(diǎn)會(huì)議系統(tǒng)100的示例性部分的相關(guān)元件的框圖。系統(tǒng)100可以包括網(wǎng)絡(luò)110、一個(gè)或多個(gè)MCU 120A-C以及多個(gè)端點(diǎn)130A-N。 在一些實(shí)施例中,網(wǎng)絡(luò)110可以包括負(fù)載平衡器(LB) 122。LB 122可以能夠控制多個(gè) MCU120A-C。這促進(jìn)了所有MCU 120A-C的有效使用,因?yàn)樗鼈兪菑膯蝹€(gè)點(diǎn)控制和安排的。此外,通過將MCU 120A-C組合并從單個(gè)點(diǎn)控制它們,成功安排即席(impromptu)視頻會(huì)議的可能性大大提高。在一個(gè)實(shí)施例中,LB 122可以是Polycom DMA 7000 (DMA是Polycom 公司的注冊商標(biāo))。關(guān)于LB 122的更多信息可以在美國專利第7,174,365號中找到,其全部內(nèi)容為了所有目的通過引用結(jié)合于此。端點(diǎn)是網(wǎng)絡(luò)上的終端,能夠提供與其他終端或與多點(diǎn)控制模塊(MCU,下面將詳細(xì)描述)的實(shí)時(shí)雙向音頻/視頻/數(shù)據(jù)通信。端點(diǎn)可以提供僅僅語音,語音和視頻,或語音、 數(shù)據(jù)和視頻通信,等等。視頻會(huì)議端點(diǎn)通常包括顯示模塊,在其上可以顯示來自一個(gè)或多個(gè)遠(yuǎn)程地點(diǎn)的視頻圖像。示例性端點(diǎn)包括POLYCOM VSX 和HDX 系列,每個(gè)都由Polycom公司提供(POLYCOM,VSX,和HDX是Polycom公司的注冊商標(biāo))。多個(gè)端點(diǎn) (EP) 130A-N可以通過網(wǎng)絡(luò)110連接至一個(gè)或多個(gè)MCU 120A-C。在存在LB 122的實(shí)施例中, 每個(gè)EP 130在連接至MCU 120A-C之一之前可以與LB 122通信。M⑶120A-C是會(huì)議控制實(shí)體。在一個(gè)實(shí)施例中,MCU 120A-C可以位于網(wǎng)絡(luò)110的節(jié)點(diǎn)中或位于從訪問端口接收多個(gè)通道的終端中,并且根據(jù)一定標(biāo)準(zhǔn),處理視聽信號并將它們分配至所連接的通道。MCU 120A-C的實(shí)施例可以包括MGC-100和RMX 2000 等等,這都是Polycom公司的產(chǎn)品(RMX 2000是Polycom公司的注冊商標(biāo))。在一個(gè)實(shí)施例中,MCU 120A-C可以是IP MCU,其是工作在IP網(wǎng)絡(luò)上的服務(wù)器。IP MCU 120A-C僅是可以實(shí)施本公開的教導(dǎo)的許多不同網(wǎng)絡(luò)服務(wù)器中的一些。因此,本公開不僅僅局限于IPMCU實(shí)施例。在一個(gè)實(shí)施例中,一個(gè)或多個(gè)MCU 120A-C可以是MLTV-MCU 120。LB 122可以進(jìn)一步由一個(gè)或多個(gè)MLTV-MCU 120通知MLTV-MCU 120的能力,例如翻譯能力。這樣,當(dāng)端點(diǎn) 130要求字幕或翻譯時(shí),LB 122可以將EP 130指向作為MLTV-MCU的MCU120。網(wǎng)絡(luò)110可以表示單個(gè)網(wǎng)絡(luò)或者兩個(gè)或更多個(gè)網(wǎng)絡(luò)的組合,例如綜合服務(wù)數(shù)字網(wǎng) (ISDN)、公共交換電話網(wǎng)(PSTN)、異步傳輸模式(ATM)、因特網(wǎng)、電路交換網(wǎng)、內(nèi)部網(wǎng)。網(wǎng)絡(luò)上的多媒體通信可以基于諸如國際通信聯(lián)盟(ITU)標(biāo)準(zhǔn)H. 320,H. 324,H. 323,SIP標(biāo)準(zhǔn)等通信協(xié)議。端點(diǎn)130A-N可以包括用戶控制裝置(為了清楚,圖中未示出),其可以作為EP 130中的與會(huì)者和MCU 120A-C之間的接口。用戶控制裝置可以包括撥號鍵盤(例如電話的鍵盤),其使用DTMF(雙音多頻)信號;專用控制裝置,其在DTMF信號之外還可以使用其他控制信號;以及根據(jù)例如ITU標(biāo)準(zhǔn)H. 244和H. 281的遠(yuǎn)端攝像機(jī)控制信令模塊。端點(diǎn)130A-N還可以包括麥克風(fēng)(為了清楚,圖中未示出),以使得端點(diǎn)處的與會(huì)者能夠在會(huì)議中發(fā)言或加入其他與會(huì)者聽見的聲音和噪聲;攝像機(jī),允許端點(diǎn)130A-N將現(xiàn)場視頻數(shù)據(jù)輸入至?xí)h;一個(gè)或多個(gè)揚(yáng)聲器,使得能夠聽見會(huì)議;以及顯示器,使得會(huì)議能夠在端點(diǎn)130A-N處被觀看。缺少上述部件之一的端點(diǎn)130A-N可能在他們可以參加會(huì)議的方式上被限制。所描述的系統(tǒng)100的部分僅包括和描述了相關(guān)元件。系統(tǒng)100的其他部分沒有被描述。本領(lǐng)域技術(shù)人員應(yīng)該理解,取決于其結(jié)構(gòu)和系統(tǒng)的需求,每個(gè)系統(tǒng)100可以具有其他數(shù)量的端點(diǎn)130、網(wǎng)絡(luò)110、LB 122以及MCU 120。然而,為了容易理解,示出了四個(gè)端點(diǎn)130 和一個(gè)具有三個(gè)MCU 120的網(wǎng)絡(luò)110。圖2示出了具有一個(gè)實(shí)施例的MLTV-MCU 200的一部分的相關(guān)元件的框圖。 MLTV-MCU的替換實(shí)施例可以具有其他部件和/或可以不包括圖2中示出的所有部件。MLTV-MCU 200可以包括網(wǎng)絡(luò)接口(NI)210。NI 210可以作為多個(gè)端點(diǎn)130A-N和 MLTV-MCU200內(nèi)部模塊/模塊之間的接口。在一個(gè)方向上,NI 210可以通過網(wǎng)絡(luò)110接收來自多個(gè)端點(diǎn)130A-N的多媒體通信。NI 210可以根據(jù)諸如H. 320,H. 323,H. 321,H. 3 和會(huì)話發(fā)起協(xié)議(SIP)之類的通信標(biāo)準(zhǔn)處理接收到的多媒體通信。NI210可以將對接收到的多媒體通信進(jìn)行處理后的壓縮音頻、壓縮視頻、數(shù)據(jù)和控制流傳輸至MLTV-MCU 200的適當(dāng)模塊。一些通信標(biāo)準(zhǔn)要求NI 210的處理包括將進(jìn)入的多媒體通信解復(fù)用為壓縮音頻、壓縮視頻、數(shù)據(jù)和控制流。在一些實(shí)施例中,媒體在發(fā)送至MLTV-MCU 200之前可以首先被壓縮, 然后加密。在另一方向上,NI 200可以通過網(wǎng)絡(luò)110將來自MLTV-MCU200中間模塊的多媒體通信傳輸至一個(gè)或多個(gè)端點(diǎn)130A-N。NI 210可以接收來自MLTV-MCU 200的各種模塊的分開的流。NI 200可以根據(jù)通信標(biāo)準(zhǔn)復(fù)用并將這些流處理成為多媒體通信流。NI 210可以將多媒體通信傳輸至網(wǎng)絡(luò)110,網(wǎng)絡(luò)110將流運(yùn)送至一個(gè)或多個(gè)端點(diǎn)130A-N。關(guān)于不同網(wǎng)絡(luò)上的端點(diǎn)和/或MCU之間通信的更多信息、以及描述信令、控制、壓縮和如何設(shè)置視頻電話的信息可以例如在ITU標(biāo)準(zhǔn)H. 320,H. 321,H. 323,H. 261, H. 263和 H. 264中找到。MLTV-MCU 200還可以包括音頻模塊220。音頻模塊220可經(jīng)由NI 210并通過音頻鏈路2 接收來自多個(gè)端點(diǎn)130A-N的壓縮音頻流。音頻模塊220可以處理接收到的壓縮音頻流,可以解壓縮(解碼)并混合相關(guān)音頻流,編碼(壓縮)并經(jīng)由音頻鏈路2 和 NI210向端點(diǎn)130A-N傳輸壓縮編碼混合后的信號。在一個(gè)實(shí)施例中,根據(jù)每個(gè)單獨(dú)端點(diǎn)130的需求,發(fā)送至每個(gè)端點(diǎn)130A-N的音頻流可能不同。例如,音頻流可以根據(jù)每個(gè)端點(diǎn)的不同通信標(biāo)準(zhǔn)被格式化。此外,發(fā)送至端點(diǎn) 130的音頻流可以不包括與該端點(diǎn)相關(guān)聯(lián)的與會(huì)者的聲音,而與會(huì)者的聲音可以被包括在所有其他混合音頻流中。在一個(gè)實(shí)施例中,音頻模塊220可以包括至少一個(gè)DTMF模塊225。DTMF 225可以從接收到的音頻流中檢測和捕獲DTMF信號。DTMF模塊225可以將DTMF信號轉(zhuǎn)換為DTMF 控制數(shù)據(jù)。DTMF模塊225可以經(jīng)由控制鏈路232將DTMF控制數(shù)據(jù)傳輸至控制模塊230。 DTMF控制數(shù)據(jù)可以被用于控制會(huì)議的特征。DTMF控制數(shù)據(jù)例如可以是由與會(huì)者通過點(diǎn)擊和查看功能發(fā)送的命令。其他實(shí)施例中,在DTMF模塊225之外或代替DTMF模塊225,可以使用語音識別模塊(未示出)。在這些實(shí)施例中,語音識別模塊可以使用聲音命令和與會(huì)者的響應(yīng)來控制視頻會(huì)議的參數(shù)。進(jìn)一步的實(shí)施例可以使用或具有交互式聲音識別(IVR)模塊,其在視覺菜單之外或代替視覺菜單來指示與會(huì)者。音頻指令可以是視覺菜單的加強(qiáng)。例如,音頻模塊220可以生成音頻菜單,用于指示與會(huì)者關(guān)于如何參加會(huì)議和/或如何操縱會(huì)議的參數(shù)。IVR模塊沒有在圖2中示出。在典型MCU的普通操作以外,作為具有會(huì)議翻譯模塊(CTM) 222的結(jié)果,MLTV-MCU 200的實(shí)施例還能夠進(jìn)行另外的操作。CTM 222可以確定哪個(gè)接收的音頻流需要被翻譯。 CTM 22可以例如將所識別的需要翻譯的音頻流傳輸至語音至文字引擎和翻譯引擎。翻譯的文字可以被傳輸至菜單生成器250。下面結(jié)合圖3公開關(guān)于CTM 222和音頻模塊220的操作的更多信息。在典型MCU的普通操作之外,作為具有控制模塊230的結(jié)果,MLTV-MCU 200還能夠進(jìn)行另外的操作。控制模塊230可以控制MLTV-MCU 200的操作及其中間模塊的操作,中間模塊諸如音頻模塊220、菜單生成器250、視頻模塊240等??刂颇K230可以包括邏輯模塊,其可以處理從MLTV-MCU 200的不同中間模塊以及從諸如LB 122或EP 130等外部裝置接收到的指令。狀態(tài)和控制信息可以通過控制總線234、NI 210和網(wǎng)絡(luò)110向外部裝置發(fā)送??刂颇K230可以處理經(jīng)由控制鏈路232從DTMF模塊225接收的、和/或經(jīng)由控制鏈路236從CTM 222接收的指令。控制信號可以經(jīng)由控制鏈路236、238、239和/或234被發(fā)送和接收??刂菩盘柨梢园ń?jīng)由點(diǎn)擊和查看功能或語音命令從與會(huì)者接收的信令和控制命令,從CTM 22接收的關(guān)于將被呈現(xiàn)的字幕的命令,等等。控制模塊230可以經(jīng)由控制鏈路239控制菜單生成器250。在一個(gè)實(shí)施例中,控制模塊230可以指示菜單生成器250向哪些地點(diǎn)以什么語言和什么格式呈現(xiàn)哪些字幕??刂颇K230可以例如指示視頻模塊240關(guān)于所需的格局。下面結(jié)合圖3、5和6更詳細(xì)地描述控制模塊230的一些獨(dú)特操作。在一個(gè)實(shí)施例中,菜單生成器(MG) 250可以是邏輯模塊,其生成顯示在端點(diǎn)的顯示器上的菜單和/或字幕。MG 250可以從不同的MLTV-MCU 200中間模塊接收命令,諸如經(jīng)由控制鏈路239從控制模塊230,經(jīng)由控制鏈路2M從音頻模塊220等。在一個(gè)實(shí)施例中, MG 250可以經(jīng)由文字鏈路252從音頻模塊220和經(jīng)由總線239從控制模塊230接收要顯示的文字和制圖指令。所接收的文字可以是其音頻流位于音頻混合中的發(fā)言與會(huì)者的翻譯。 MG 250可以生成字幕和/或菜單幀(frame)。字幕可以是從音頻模塊接收的文字的視覺圖形。關(guān)于菜單生成器的更多信息可以在美國專利第7,542, 068號中找到。在一些實(shí)施例中, 諸如Qt Extended(以前被稱為Qtopia)之類的商業(yè)的菜單生成器可以被用作MG 250。在一個(gè)實(shí)施例中,字幕可以以一個(gè)人可以容易地區(qū)分哪個(gè)字幕是發(fā)言與會(huì)者的翻譯的方式被格式化。下面結(jié)合圖4公開關(guān)于字幕的更多信息。菜單幀可以包括供與會(huì)者選擇的相關(guān)選項(xiàng)。字幕可以是視頻模塊240能夠處理的大小和格式的圖形圖像。字幕可以經(jīng)由視頻鏈路249發(fā)送至視頻模塊M0。字幕可以根據(jù)從控制模塊230和/或MG 250接收的控制信息顯示在端點(diǎn)130A-N的顯示器上。字幕可以包括文字、圖形和透明信息(關(guān)于字幕在視頻圖像上的位置的信息,會(huì)議視頻圖像可以被看作是透過部分透明的前景字幕的背景)。可以顯示字幕,作為會(huì)議的通用視頻圖像的一部分的附加或替代。在另一實(shí)施例中,MG 250可以是視頻模塊MO的一部分。下面結(jié)合圖6描述關(guān)于MG 250的操作的更多細(xì)節(jié)。
視頻模塊240可以是邏輯模塊,其接收、修改和發(fā)送壓縮的視頻流。視頻模塊240 可以包括一個(gè)或多個(gè)輸入模塊對2,其處理從一個(gè)或多個(gè)參加端點(diǎn)130A-N接收到的壓縮輸入視頻流;以及一個(gè)或多個(gè)輸出模塊對4,其可以生成組合的壓縮輸出視頻流。壓縮輸出視頻流可以由多個(gè)輸入流和多個(gè)字幕和/或菜單組成,以形成表示用于多個(gè)端點(diǎn)130A-N中的一個(gè)或多個(gè)指定的端點(diǎn)130A-N的會(huì)議的視頻流。組合的壓縮輸出視頻流可以經(jīng)由視頻鏈路246被發(fā)送至NI 210。NI210可以將該一個(gè)或多個(gè)組合的壓縮輸出視頻流傳輸至相關(guān)的一個(gè)或多個(gè)端點(diǎn)130A-N。在一個(gè)實(shí)施例中,每個(gè)視頻輸入模塊可以與一個(gè)端點(diǎn)130相關(guān)聯(lián)。每個(gè)視頻輸出模塊244可以與接收具有相同壓縮參數(shù)的相同布局的一個(gè)或多個(gè)端點(diǎn)130相關(guān)聯(lián)。每個(gè)輸出模塊244可以包括編輯器模塊M5。每個(gè)視頻輸出模塊244可以根據(jù)為特定端點(diǎn)或端點(diǎn)組130A-N個(gè)性化的(individualized)布局產(chǎn)生組合的視頻圖像。每個(gè)視頻輸出模塊M4 可以顯示為多個(gè)端點(diǎn)130A-N中的特定端點(diǎn)或端點(diǎn)組個(gè)性化的字幕。從輸入模塊242傳送的未壓縮視頻數(shù)據(jù)可以在公共接口 248上由輸出模塊244共享,公共接口可以包括時(shí)分多路復(fù)用(TDM)接口、基于包的接口、異步傳輸模式(ATM)接口、 和/或共享存儲(chǔ)器。公共接口 248上的數(shù)據(jù)可以被完全解壓縮或部分解壓縮。在一個(gè)實(shí)施例中,多個(gè)輸出模塊244中的每一個(gè)可以包括編輯器M5。來自MG 250 的視頻數(shù)據(jù)例如可以根據(jù)從控制模塊230接收的命令由適當(dāng)輸出模塊244從公共接口 248 來捕獲。每個(gè)適當(dāng)輸入模塊可以將視頻數(shù)據(jù)傳輸給編輯器對5。編輯器245可以從不同視頻源建立輸出視頻幀,還可以將菜單和/字幕幀包括到將被編碼的下一幀存儲(chǔ)中。編輯器 245可以將每個(gè)字幕作為經(jīng)由公共接口 248接收的不同的視頻源之一來處理。編輯器M5 可以將字幕的視頻數(shù)據(jù)添加至布局作為視頻圖像的矩形或窗口之一。屏幕布局上的每個(gè)矩形(塊)或窗口可以包含從一個(gè)不同端點(diǎn)130接收到的視頻圖像,例如與該端點(diǎn)相關(guān)聯(lián)的與會(huì)者的視頻圖像。在一個(gè)實(shí)施例中,來自MG 250的視頻數(shù)據(jù)(例如,字幕)可以被放置在呈現(xiàn)產(chǎn)生所呈現(xiàn)的字幕的與會(huì)者的視頻圖像的窗口的上方或下方。其他編輯器245可以將來自MG 250的視頻數(shù)據(jù)看成是特殊的視頻源,并將字幕顯示為透明的且位于相關(guān)與會(huì)者的視頻圖像前面,從而菜單后面的視頻圖像仍然可以被看到。視頻模塊240的示例性操作在上面引用的美國專利第6,300,973號中被描述。視頻模塊MO的其他示例性實(shí)施例在美國專利第7,535,485號和美國專利第7,542, 068號中描述。在一些實(shí)施例中,MG 250可以是向多于一個(gè)輸出模塊244生成所需的字幕的獨(dú)立模塊。在其他實(shí)施例中,MG 250可以是在每個(gè)輸出模塊244中的模塊,用于生成個(gè)性化的
菜單和/或字幕。在一個(gè)實(shí)施例中,字幕可以被全面?zhèn)€性化。例如,字幕可以根據(jù)各個(gè)端點(diǎn)130A-N 分別的請求在設(shè)置、外表和外觀上被個(gè)性化??商鎿Q地,字幕的外觀可以基本上一致,盡管在字幕出現(xiàn)的時(shí)間等方面被個(gè)性化。在一個(gè)實(shí)施例中,將視覺控制呈現(xiàn)給端點(diǎn)130A-N可以是在會(huì)議的主持人(圖中未示出)預(yù)定和定義會(huì)議的模式(profile)時(shí)可以由主持人選擇的選項(xiàng)。主持人可以與端點(diǎn) 130A-N之一相關(guān)聯(lián),以及可以使用用戶控制裝置(圖中未示出)來選擇和定義會(huì)議的模式。主持人可以確定與會(huì)者在會(huì)議期間是否擁有(通過使用他們各自的用戶控制裝置)控制會(huì)議的設(shè)置(參數(shù))的能力。在一個(gè)實(shí)施例中,當(dāng)允許與會(huì)者具有控制會(huì)議設(shè)置的能力時(shí),主持人在會(huì)議模式中將對應(yīng)的選項(xiàng)選擇為“開啟”??刂奇溌?34、236、232、238和239,視頻鏈路246和M9,音頻鏈路226,可以分別
是被專門設(shè)計(jì)為并專用于承載控制信號、視頻信號、音頻信號和多媒體信號的鏈路。鏈路可以包括時(shí)分復(fù)用(TDM)接口、基于包的接口、異步傳輸模式(ATM)接口、和/或共享存儲(chǔ)器。 可替換地,它們可以由用于承載信號的通用電纜構(gòu)成。在其他實(shí)施例中,鏈路例如可以承載光學(xué)信號,或可以是無線電波的通道,或者是其組合。圖3示出了具有根據(jù)一個(gè)實(shí)施例的音頻模塊300的示例性部分的相關(guān)元件的框圖。音頻模塊300的可替換實(shí)施例可以具有其他部件和/或可以包括圖3中示出的所有部件。音頻模塊300可以包括多個(gè)會(huì)議音頻模塊305A-N,一個(gè)會(huì)議音頻模塊305A-N針對音頻模塊300處理的一個(gè)會(huì)議。每個(gè)會(huì)議音頻模塊305A-N可以經(jīng)由NI 210,通過壓縮音頻通用接口 302,接收來自一個(gè)或多個(gè)端點(diǎn)130A-N的多個(gè)音頻流。每個(gè)所接收的音頻流可以被音頻解碼器(AD) 310A-N解壓縮、解碼。在一個(gè)實(shí)施例中的AD 310可以檢測非嗓音信號以在嗓音和非嗓音音頻信號之間進(jìn)行區(qū)分。例如,被檢測作為DTMF信號的音頻流可以被傳輸至DTMF模塊225,并且可以被轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)。數(shù)字?jǐn)?shù)據(jù)被傳輸至控制模塊230。數(shù)字?jǐn)?shù)據(jù)例如可以是從端點(diǎn)130發(fā)送至 MLTV-MCU 120A-C 的命令。每個(gè)音頻流可以被AD 310A-N模塊解壓縮和/或解碼。解碼可以根據(jù)在接收到的壓縮音頻流中使用的壓縮標(biāo)準(zhǔn)來進(jìn)行。壓縮標(biāo)準(zhǔn)可以包括ITU標(biāo)準(zhǔn)G.719,G.722等。在一個(gè)實(shí)施例中,AD 310A-N模塊可以包括通用語音過濾器,其可以過濾出語音而去掉不同種類的噪聲。AD 310A-N語音過濾器提高了音頻質(zhì)量。AD 310A-N可以通過一個(gè)或多個(gè)音頻鏈路312輸出過濾后的解壓縮和/或解碼的音頻數(shù)據(jù)。解碼的音頻數(shù)據(jù)在一個(gè)實(shí)施例中可以由信號能量分析器和控制器(SEAC)320經(jīng)由鏈路322被采樣。SEAC 320可以識別具有最高信號能量的預(yù)定數(shù)量的音頻流(例如在3 到5個(gè)流之間)。響應(yīng)于檢測到的信號能量,SEAC 320可以將一個(gè)或多個(gè)控制命令經(jīng)由控制鏈路3 發(fā)送至翻譯器-選擇器模塊(TSM) 360和一個(gè)或多個(gè)混合選擇器330A-N。至混合選擇器330的控制命令例如可以指出選擇哪些音頻流來混合。在可替換實(shí)施例中,可以經(jīng)由控制鏈路3 從控制模塊230接收關(guān)于哪些音頻流要被混合的命令。在可替換實(shí)施例中,決定可以是來自SEAC 320和控制模塊230的控制命令的組合。SEAC 320 例如可以每隔預(yù)定時(shí)間段或每隔預(yù)定數(shù)量的幀來采樣音頻鏈路312。TSM 360可以經(jīng)由音頻鏈路312從AD 310A-N接收解碼的音頻流。此外,TSM 360 可以從SEAC 320接收指示哪些音頻流需要被翻譯的命令。響應(yīng)于這些命令,TSM 360可以將所選的解碼的音頻流傳輸至一個(gè)或多個(gè)STTE 365A-X。在可替換實(shí)施例中,TSM 360可以拷貝需要被翻譯的每個(gè)音頻,并將音頻流的拷貝傳輸至STTE365A-X,而將原始流傳輸至混合選擇器330。在一個(gè)實(shí)施例中,STTE 365A-X可以接收音頻流并將音頻流轉(zhuǎn)換成文字流。STTE 365A-X可以是商業(yè)部件,例如,微軟公司提供的Microsoft Speech SDK,國際商業(yè)機(jī)器公司提供的IBM EmbeddedViaVoice,以及MacSpeech公司提供的iListen。在一個(gè)實(shí)施例中,STTE 365 可以是 web 服務(wù),例如,Google Translate 或 Yahoo ! Babel fish 網(wǎng)站。在另一實(shí)施例中,STTE可以是上述的組合。每個(gè)STTE 365可以被用于一種或多種語言。在STTE 365A-X位于遠(yuǎn)程地點(diǎn)的一些實(shí)施例中,已經(jīng)被選擇進(jìn)行翻譯的所選音頻流可以在被發(fā)送至 STTE 365A-X之前被壓縮。在每個(gè)STTE 365A-X被用于幾種語言的一個(gè)實(shí)施例中,TSM360可以根據(jù)音頻流的語言確定哪個(gè)音頻流被傳輸至哪個(gè)STTE365A-X。TSM 360可以將命令信息與音頻流一起發(fā)送至STTE 365A-X。命令信息可以包括音頻流的語言和該流應(yīng)當(dāng)被翻譯成的語言。在另一實(shí)施例中,SEAC 320可以就音頻流的目標(biāo)語言直接指示每個(gè)STTE 365A-X。在一個(gè)實(shí)施例中, STTE 365A-X可能能夠識別音頻流的語言并使其本身適合于將所接收的音頻翻譯成所需的語言。在一個(gè)實(shí)施例中,所需的語言可以由SEAC 320定義。這樣的實(shí)施例可以使用能夠識別語言的商業(yè)產(chǎn)品,例如在 1991 年的 InternationalConference on Acoustics, Speech and Signal Processing的論文集中出版的文章"Automatic Language Recognition Using AcousticFeatures,,中描述的產(chǎn)品。其他實(shí)施例可以使用確定音頻流的語言和該音頻流應(yīng)當(dāng)被翻譯成的語言的其他方法。一種技術(shù)可以是通過識別作為音頻流的源的端點(diǎn)(地點(diǎn)),以及該音頻流應(yīng)當(dāng)被發(fā)送到的端點(diǎn)。該信息可以從肌210(圖幻和/或控制模塊230接收,并且可以被包括在發(fā)送至SEAC 320的信息中。另一實(shí)施例可以使用訓(xùn)練階段,其中在作為連續(xù)呈現(xiàn)(CP)會(huì)議中的通用程序的 “說出你的名字”請求之外,通過請求與會(huì)者說幾個(gè)預(yù)定詞,MLTV-MCU 200可以執(zhí)行聲音校準(zhǔn)階段。聲音校準(zhǔn)階段可以在視頻會(huì)議開始時(shí)或在與會(huì)者加入會(huì)議時(shí)執(zhí)行。聲音校準(zhǔn)階段例如也可以由與會(huì)者啟動(dòng)。在聲音校準(zhǔn)階段,TSM 360可以學(xué)習(xí)哪個(gè)與會(huì)者的聲音需要被翻譯。在一個(gè)實(shí)施例中,這可以通過要求與會(huì)者在聲音校準(zhǔn)階段開始時(shí)說預(yù)定數(shù)量的詞(諸如“good m0rning”、“yes”、“n0”等)來實(shí)現(xiàn)。TSM 360然后可以將這些詞的音頻串與查找表中的多個(gè)條目進(jìn)行比較。該查找表可以包括不同語言的預(yù)定詞串。當(dāng)接收到在所接收音頻串與查找表中的條目之間的匹配時(shí),TSM 360可以確定所接收的音頻流的語言。TSM 360 在一個(gè)實(shí)施例中可以訪問數(shù)據(jù)庫,它可以在該數(shù)據(jù)庫中存儲(chǔ)信息以供未來使用。在一個(gè)實(shí)施例中,TSM 360可以通過使用點(diǎn)擊和查看功能從一個(gè)或多個(gè)端點(diǎn)接收關(guān)于語言的信息。與會(huì)者可以輸入關(guān)于與會(huì)者的語言和/或會(huì)議想要將他的話翻譯成的語言,或他希望被翻譯成與會(huì)者的語言的端點(diǎn),與會(huì)者希望翻譯成的語言,等等的信息。在其他實(shí)施例中,進(jìn)行接收的與會(huì)者可以定義語言和/或與會(huì)者希望從中得到字幕的端點(diǎn)。在一個(gè)實(shí)施例中,在會(huì)議的任何階段,與會(huì)者可以使用點(diǎn)擊和查看功能輸入上述信息。例如, 該信息可以使用DTMF信號被傳輸。在另一實(shí)施例中,該識別可以是不同方法的組合。在另一實(shí)施例中,TSM 360可以通過訪問可以識別所講語言并將該語言通知給 TSM 360的模塊來識別語言。該模塊可以是內(nèi)部或外部模塊。該模塊可以是商業(yè)模塊,例如 iListen或ViaVoice。TSM360可以執(zhí)行上述技術(shù)的組合或沒有提及的技術(shù)。在STTE 365A-X已經(jīng)將音頻流轉(zhuǎn)成文字流之后,STTE 365可以安排文字,從而其在適當(dāng)位置具有逗號和句號,以幫助TE 367A-X更準(zhǔn)確地翻譯文字。STTE 365然后可以將轉(zhuǎn)換后的文字的短語轉(zhuǎn)發(fā)至一個(gè)或多個(gè)TE 367A-X中。TE 367A-X可以采用商業(yè)部件,例如由Systran軟件公司提供的Systran,由Babylon有限公司提供的Babylon,以及由 MacSpeech公司提供的iListen。在其他實(shí)施例中,TE 367可以訪問web服務(wù),例如Google Translate,或Yahoo ! Babel fish網(wǎng)站。在另一實(shí)施例中,其可以是上面的組合。每個(gè) TE367可以提供一種不同語言或多種語言。將每個(gè)文字翻譯成哪種語言的決定可以通過確定文字流將被顯示在哪個(gè)端點(diǎn) (地點(diǎn))上作為字幕或通過接收關(guān)于需要被翻譯給端點(diǎn)130中的與會(huì)者的語言的信息來實(shí)現(xiàn)。與會(huì)者可以使用點(diǎn)擊和查看功能來識別目標(biāo)語言。與會(huì)者可以輸入關(guān)于與會(huì)者語言、 和/或?qū)⒈环g的端點(diǎn)、應(yīng)被翻譯的語言等的信息。在一個(gè)實(shí)施例中,與會(huì)者可以在會(huì)議的任何階段使用點(diǎn)擊和查看功能輸入上述信息。在一個(gè)實(shí)施例中,該信息可以在DTMF信號中被傳輸。在其他實(shí)施例中,識別可以是不同技術(shù)的組合,包括沒有在此描述的技術(shù)。TE 367可以將翻譯的文字輸出到菜單生成器250和/或文字至語音模塊 (TTS)369A-X,和/或到會(huì)議稿記錄器370。菜單生成器230可以接收翻譯的文字并將該文字轉(zhuǎn)換為視頻幀。菜單生成器250例如可以具有查找表,查找表可以在文字字母和其圖形視頻(字幕)之間進(jìn)行匹配。菜單生成器250可以接收來自控制模塊230和/或音頻模塊 300的命令。在一個(gè)實(shí)施例中,命令可以包括哪些字幕顯示給哪些端點(diǎn),以哪種格式顯示每個(gè)字幕(顏色、大小等),等等。菜單生成器250可以執(zhí)行所接收的命令、修改字幕、以及將其傳輸至適當(dāng)?shù)囊曨l輸出模塊M4。關(guān)于菜單生成器250的更多信息將在結(jié)合上面的圖2和下面的圖6披露。在一個(gè)實(shí)施例中,TE 367A-X可以將翻譯的文字輸出到會(huì)議稿記錄器370。會(huì)議稿記錄器370可以被用于會(huì)議討論的記錄。由會(huì)議稿記錄器370存儲(chǔ)的內(nèi)容可以被發(fā)送給所有或一些與會(huì)者,分別以與會(huì)者的語言。在會(huì)議稿中,可能存在指示,其指示哪些文字是由主發(fā)言者所說,哪些文字被聽見(混合在會(huì)議電話中),哪些文字沒有被所有與會(huì)者聽見等。在一個(gè)實(shí)施例中,指示可以包括在行的開頭指出音頻被轉(zhuǎn)換為文字的人的姓名,為主發(fā)言者的文字使用粗體,根據(jù)測量到的音頻信號能量使用不同字母大小。在一個(gè)實(shí)施例中,TE 367A-X可以將翻譯的文字輸出至TTS369A-X。TTS 369A-X可以將接收到的翻譯文字轉(zhuǎn)換為音頻(采用與文字相同的語言)。TTS 369A-X然后可以將轉(zhuǎn)換后的音頻傳輸至TSM 360。在一個(gè)實(shí)施例中,TSM 360可以接收關(guān)于來自哪個(gè)TTS369A-X 的哪個(gè)音頻被傳輸至哪個(gè)混合選擇器330A-N的命令。TSM360可以接收來自SEAC 320的命令。TTS 369A-X可以是商業(yè)部件,例如微軟公司提供的Microsoft SAPI、或AT&T公司提供的 NATURAL VOICE ( "NATURAL VOICE”是 AT&T IntellectualProperty II, L. P.的注冊商標(biāo))。在一些實(shí)施例中,TSM 360可以包括緩沖器,用于延遲不需要翻譯的流的音頻數(shù)據(jù),以使混合的音頻與字幕同步。這些緩沖器還可以被用于同步音頻和視頻。所選擇的要被混合的音頻流(包括來自TTS 367A-X的所選擇的音頻流)可以從TSM 360輸出至適當(dāng)?shù)囊粋€(gè)或多個(gè)混合選擇器330A-N。在一個(gè)實(shí)施例中,每個(gè)接收端點(diǎn) 130A-N可以具有一個(gè)混合選擇器330?;旌线x擇器330A-N可以將接收到的修改后的音頻流轉(zhuǎn)發(fā)至適當(dāng)?shù)幕旌掀?40A-N。在替換實(shí)施例中,單個(gè)選擇器可以包括兩個(gè)選擇器TSM 360 和混合選擇器330A-N的功能。這兩個(gè)選擇器——TSM 360和混合選擇器330A-N——被示出是為了簡化本描述的教導(dǎo)。
在一個(gè)實(shí)施例中,每個(gè)端點(diǎn)130A-N可以有一個(gè)混合器。每個(gè)混合器340A-N可以將所選的輸入音頻流混合成一個(gè)混合的音頻流?;旌系囊纛l流可以被發(fā)送至編碼器350A-N。 編碼器350A-N可以將所接收的混合音頻流編碼,并將編碼后的混合音頻流輸出至NI 210。 編碼可以根據(jù)所要求的音頻壓縮標(biāo)準(zhǔn)(例如,G. 719,G. 722等)來進(jìn)行。圖4A和4B示出了根據(jù)一個(gè)實(shí)施例的多語言翻譯視頻會(huì)議的CP視頻圖像的快照。 圖4A和圖4B示出了快照400和420。每個(gè)快照具有4塊快照400具有塊401,402,403 和404,而快照420具有塊421,422,423和424。(圖中的翻譯文字是說明性的,僅用于示例,不打算作為原始語言的最好的可能翻譯)。圖4A被顯示在日本端點(diǎn)。塊402和403與講日語之外的語言(在該示例中分別為俄語和英語)的與會(huì)者相關(guān)聯(lián),從而被翻譯成日語的字幕已經(jīng)被添加到410和412。在該實(shí)施例中,字幕位于每個(gè)被翻譯塊的底部。在可替換實(shí)施例中,所有的字幕可以使用不同顏色等被顯示在一個(gè)區(qū)域中。塊401與無聲音的端點(diǎn) 130(其音頻信號能量低于其他的)相關(guān)聯(lián),從而其音頻沒有被聽到(混合),并且沒有顯示字幕。塊404是其發(fā)言人講日語的另一端點(diǎn)的塊,因此他的音頻沒有被翻譯,這是因?yàn)檫@是在日本終端(端點(diǎn))130上觀看。圖4B是顯示在例如美國端點(diǎn)(終端)上的快照。塊422,423和似4是來自講英語之外的語言的端點(diǎn)的音頻和視頻,因此具有翻譯414,416和418的字幕已經(jīng)被添加在塊 422,423和424中。與塊421相關(guān)聯(lián)的與會(huì)者的音頻信號能量低于其他的,因此,其音頻沒有被聽見并且沒有顯示字幕。在該實(shí)施例中,每個(gè)字幕以關(guān)于語言名稱的指示開始,其中字幕是從該語言被翻譯過來的。主發(fā)言人(日語與會(huì)者)(例如,具有最高音頻信號能量達(dá)時(shí)間周期的一定百分比的發(fā)言人)下方的字幕418通過在字幕下面劃線來表示。字幕可以包括文字、圖形和透明信息(與會(huì)議視頻圖像可以被看作是透過部分透明的前景圖像的背景的程度有關(guān)的信息)。圖5是示出了根據(jù)一個(gè)實(shí)施例的音頻翻譯控制技術(shù)500的相關(guān)步驟的流程圖。在一個(gè)實(shí)施例中,技術(shù)500可以由SEAC 320實(shí)現(xiàn)。技術(shù)500不包括用于確定哪些音頻流將被混合或被定義為主發(fā)言人的常見過程。技術(shù)500僅用于處理翻譯過程。一旦開始會(huì)議,技術(shù)500可以在塊502開始。在塊504,技術(shù)500可以獲取關(guān)于參加會(huì)議的不同與會(huì)者(端點(diǎn))所使用的語言的信息。語言信息可以包括與會(huì)者使用的語言以及與會(huì)者要求翻譯的語言。不同技術(shù)可以被用于確定語言信息,包括上面沒有描述的技術(shù)。接下來,技術(shù)500可以在塊506中通知TSM 360關(guān)于所獲取的語言信息。也可以通知TSM 360不同參數(shù),可以包括關(guān)于為每個(gè)端點(diǎn)設(shè)置的字幕顏色的信息,用于每個(gè)端點(diǎn)的音頻混合信息,以及關(guān)于發(fā)送至適當(dāng)?shù)囊粋€(gè)或多個(gè)STTE 365A-X和TE 367A-X的音頻的 fn息ο然后多個(gè)并行線程可以在塊508中被啟動(dòng),每個(gè)需要被翻譯的音頻流一個(gè)(每個(gè)被譯與會(huì)者(translated conferee) 一個(gè))。圖5僅示出了在塊508中啟動(dòng)的多個(gè)并行線程中的一個(gè)線程。每個(gè)線程包括塊510至522或524。在塊510,啟動(dòng)每個(gè)判定周期的循環(huán)。 該循環(huán)可以通過等待一個(gè)等待周期D在塊510開始。在一個(gè)實(shí)施例中,D可以在幾十毫秒至幾百毫秒的范圍內(nèi)。在等待周期D結(jié)束時(shí),技術(shù)500可以在塊514中檢驗(yàn)相關(guān)被譯與會(huì)者的音頻流是否能夠在音頻混合(audio mix)中。關(guān)于音頻流能否在混合中的判定可以取決于例如其音頻能量與其他音頻流的音頻能量的比較。如果在塊514判定該相關(guān)音頻流不能在混合中,則技術(shù)500返回至塊510并等待。如果在塊514判定該相關(guān)音頻流可以在混合中,則技術(shù)500進(jìn)行到塊516。在塊516,TSM可以被指示將相關(guān)音頻流傳輸至適當(dāng)?shù)腟TTE365A-X和TE 367A-X。 適當(dāng)?shù)腟TTE 365A-X和TE 367A-X可以分別基于相關(guān)被譯與會(huì)者的講話語言和其將被翻譯成的語言。隨后,在塊520中需要判定該相關(guān)被譯與會(huì)者是否為主發(fā)言人。如果在塊520 中判定為是,則菜單生成器250可以被指示524獲取來自與該相關(guān)被譯與會(huì)者相關(guān)聯(lián)的一個(gè)或多個(gè)TE 367A-X的文字,以在塊5M中將該文字以主發(fā)言人格式呈現(xiàn)為字幕,格式可以包括不同的顏色、字體、字母大小、下劃線等。接下來,技術(shù)500可以返回至塊510。如果在塊520中,相關(guān)被譯與會(huì)者不是主發(fā)言人,則技術(shù)500可以進(jìn)行到塊522。在塊522,菜單生成器250可以在塊522中被指示從相關(guān)的一個(gè)或多個(gè)TE 367A-X獲取文字,并在塊522中將該文字以普通格式呈現(xiàn)為字幕,格式可以包括顏色、字體、字母大小等。接下來,技術(shù)500 可以返回至塊510。圖6是示出了根據(jù)一個(gè)實(shí)施例由MG 250執(zhí)行的菜單生成器控制技術(shù)600的相關(guān)動(dòng)作的流程圖。一旦啟動(dòng)會(huì)議,技術(shù)600可以在塊602開始。技術(shù)600可以在塊604獲取關(guān)于每個(gè)與會(huì)者(端點(diǎn))的信息,包括哪個(gè)TE 367A-X關(guān)聯(lián)到要求呈現(xiàn)字幕的端點(diǎn)130,以及將TE 367A-X關(guān)聯(lián)到輸出模塊M4的信息。在塊608中可以開始多個(gè)線程,需要翻譯的接收端點(diǎn)130的每個(gè)輸出模塊244 — 個(gè)線程。圖6僅示出了在塊608中開始的多個(gè)并行線程中的一個(gè)線程。接下來,技術(shù)600可以在塊610中等待指令。在一個(gè)實(shí)施例中,指令可以通過塊522或524中的技術(shù)500來給出。如果在塊610中接收到指令,則技術(shù)600可以進(jìn)行到塊612。對于接收到的指令中的每個(gè)TE 367A-X,來自相關(guān)TE 367A-X的文字流可以在塊612中被收集。文字流可以在塊612 中被轉(zhuǎn)換為適當(dāng)設(shè)置(顏色、黑體、下劃線等)的視頻信息。該視頻信息可以在塊612中被傳輸至適當(dāng)?shù)妮敵瞿K的編輯器對5。接下來,技術(shù)600可以返回至塊610。在該申請中,詞語“模塊”、“裝置”、“部件,,和“模塊,,可交換使用。被指定為一個(gè)模塊或模塊的任何東西都可以是獨(dú)立的模塊或?qū)S媚K。模塊可以是模塊化的或具有使其能被容易去除并用其他類似模塊來代替的模塊化的方面。每個(gè)模塊可以是以下任一種或其任意組合軟件、硬件和/或固件。邏輯模塊的軟件可以體現(xiàn)在計(jì)算機(jī)可讀介質(zhì)上,計(jì)算機(jī)可讀介質(zhì)例如讀/寫硬盤、CDR0M、閃存、ROM等。為了執(zhí)行特定任務(wù),軟件程序可以根據(jù)需要加載至適當(dāng)處理器。在本公開的描述和權(quán)利要求中,“包括”、“包含”、“具有”及其同根詞被用于表示該動(dòng)詞的一個(gè)或多個(gè)對象不一定是該動(dòng)詞的一個(gè)或多個(gè)對象的構(gòu)件、部件、元素、或部分的完整列表。應(yīng)該理解上述設(shè)備、系統(tǒng)和方法可以以多種方式改變,包括改變步驟的順序以及所使用的精確的實(shí)施方式。所述實(shí)施例包括不同的特征,不是所有這些特征在所有本發(fā)明的實(shí)施例中都需要。此外,本公開的一些實(shí)施例僅使用這些特征中的一些特征或可能的組合。本領(lǐng)域技術(shù)人員能夠想到在所述實(shí)施例中提到的特征的不同組合。此外,本公開的一些實(shí)施例可以通過本公開中結(jié)合不同實(shí)施例描述的特征和元件的組合來實(shí)施。本發(fā)明的范圍僅由所附的權(quán)利要求及其等同物限制。盡管已經(jīng)詳細(xì)描述并在附圖中示出了某些實(shí)施例,但是應(yīng)該理解這樣的實(shí)施例在不背離由所附權(quán)利要求確定的基本范圍的情況下僅是示例性的而不用于限制。
權(quán)利要求
1.一種用于視頻會(huì)議多點(diǎn)控制單元的實(shí)時(shí)音頻翻譯器,包括控制器,用于檢查多個(gè)音頻流并選擇所述多個(gè)音頻流的子集以便翻譯;多個(gè)翻譯器資源,用于翻譯包含在所述多個(gè)音頻流的所述子集中的語音;以及翻譯器資源選擇器,耦連到所述控制器,用于將所述控制器選擇的所述多個(gè)音頻流的所述子集傳遞給所述多個(gè)翻譯器資源以便翻譯。
2.根據(jù)權(quán)利要求1所述的實(shí)時(shí)音頻翻譯器,其中所述多個(gè)翻譯器資源包括多個(gè)語音至文字引擎(STTE),每個(gè)STTE用于將在所述多個(gè)音頻流的所述子集中的一個(gè)或多個(gè)音頻流中的語音轉(zhuǎn)換為一種或多種語言的文字;以及多個(gè)翻譯引擎(TE),耦連至所述多個(gè)STTE,每個(gè)TE用于將文字從一種或多種語言翻譯成一種或多種其他語言。
3.根據(jù)權(quán)利要求2所述的實(shí)時(shí)音頻翻譯器,其中所述多個(gè)翻譯器資源進(jìn)一步包括多個(gè)文字至語音引擎(TTQ,耦連至所述多個(gè)TE,每個(gè)TTS用于將一種或多種語言的文字轉(zhuǎn)換為翻譯后的音頻流。
4.根據(jù)權(quán)利要求3所述的實(shí)時(shí)音頻翻譯器,進(jìn)一步包括混合選擇器,耦連到所述翻譯器資源選擇器,用于響應(yīng)于命令選擇音頻流以混合至輸出音頻流中;其中所述混合選擇器用于從所述多個(gè)音頻流的所述子集和所述多個(gè)TTS的翻譯后的音頻流中進(jìn)行選擇。
5.根據(jù)權(quán)利要求2所述的實(shí)時(shí)音頻翻譯器,其中所述多個(gè)STTE中的STTE用于將音頻流中的語音轉(zhuǎn)換為多種語言的文字。
6.根據(jù)權(quán)利要求1所述的實(shí)時(shí)音頻翻譯器,其中所述多個(gè)音頻流的所述子集是由所述控制器響應(yīng)于所述多個(gè)音頻流的所述子集的音頻能量水平來選擇的。
7.根據(jù)權(quán)利要求1所述的實(shí)時(shí)音頻翻譯器,其中所述翻譯器資源選擇器還用于將所述多個(gè)音頻流的所述子集傳輸至所述多個(gè)翻譯器資源。
8.根據(jù)權(quán)利要求1所述的實(shí)時(shí)音頻翻譯器,進(jìn)一步包括混合選擇器,耦連到所述翻譯器資源選擇器,用于響應(yīng)于命令選擇音頻流以混合至輸出音頻流中。
9.根據(jù)權(quán)利要求8所述的實(shí)時(shí)音頻翻譯器,其中所述命令由所述控制器生成。
10.根據(jù)權(quán)利要求1所述的實(shí)時(shí)音頻翻譯器,進(jìn)一步包括會(huì)議稿記錄器,耦連到所述多個(gè)翻譯器資源,并且用于記錄由所述多個(gè)翻譯器資源從語音轉(zhuǎn)換成的文字。
11.一種多點(diǎn)控制單元(MCU),用于從多個(gè)與會(huì)者接收多個(gè)輸入音頻流和多個(gè)輸入視頻流,以及將多個(gè)輸出音頻流和多個(gè)輸出視頻流發(fā)送至所述多個(gè)與會(huì)者,所述MCU包括網(wǎng)絡(luò)接口,用于接收多個(gè)輸入音頻流和所述多個(gè)輸入視頻流,以及發(fā)送所述多個(gè)輸出音頻流和所述多個(gè)輸出視頻流;以及音頻模塊,耦連至所述網(wǎng)絡(luò)接口,包括實(shí)時(shí)翻譯器模塊,用于翻譯包含在所述多個(gè)音頻流中的至少一些音頻流中的語音。
12.根據(jù)權(quán)利要求11所述的MCU,進(jìn)一步包括菜單生成器模塊,耦連至所述音頻模塊,用于生成與由所述實(shí)時(shí)翻譯器模塊翻譯出的語音相對應(yīng)的字幕;以及視頻模塊,用于將所述多個(gè)輸入視頻流中的輸入視頻流和由所述菜單生成器模塊生成的所述字幕相結(jié)合,產(chǎn)生所述多個(gè)輸出視頻流的輸出視頻流。
13.根據(jù)權(quán)利要求11所述的MCU,其中所述實(shí)時(shí)翻譯器模塊包括控制器,用于檢查所述多個(gè)輸入音頻流并選擇所述多個(gè)輸入音頻流的子集以便翻譯; 多個(gè)翻譯器資源,用于翻譯包含在所述多個(gè)輸入音頻流的所述子集中的語音,包括 多個(gè)語音至文字引擎(STTE),每個(gè)STTE用于將在所述多個(gè)輸入音頻流的所述子集中的一個(gè)或多個(gè)音頻流中的語音轉(zhuǎn)換為一種或多種語言的文字;多個(gè)翻譯引擎(TE),耦連至所述多個(gè)STTE,每個(gè)TE用于將文字從一種或多種語言翻譯成一種或多種其他語言;以及多個(gè)文字至語音引擎(TTQ,耦連至所述多個(gè)TE,每個(gè)TTS用于將一種或多種語言的文字轉(zhuǎn)換為翻譯后的音頻流;以及翻譯器資源選擇器,耦連至所述控制器,用于將所述控制器選擇的所述多個(gè)音頻流的所述子集傳遞給所述多個(gè)翻譯器資源以便翻譯。
14.根據(jù)權(quán)利要求13所述的MCU,其中所述多個(gè)音頻流的所述子集是由所述控制器響應(yīng)于所述多個(gè)音頻流的所述子集的音頻能量水平來選擇的。
15.根據(jù)權(quán)利要求13所述的MCU,其中所述多個(gè)STTE中的STTE用于將音頻流中的語音轉(zhuǎn)換為多種語言的文字。
16.根據(jù)權(quán)利要求13所述的MCU,其中所述翻譯器資源選擇器還用于將所述多個(gè)音頻流的所述子集傳輸至所述多個(gè)翻譯器資源。
17.根據(jù)權(quán)利要求13所述的MCU,進(jìn)一步包括混合選擇器,耦連到所述翻譯器資源選擇器,用于響應(yīng)于命令選擇音頻流以混合至輸出音頻流中。
18.根據(jù)權(quán)利要求17所述的MCU,其中所述命令由所述控制器生成。
19.根據(jù)權(quán)利要求17所述的MCU,其中所述混合選擇器用于從所述多個(gè)音頻流的所述子集和所述多個(gè)TTS的翻譯后的音頻流中進(jìn)行選擇。
20.根據(jù)權(quán)利要求13所述的MCU,進(jìn)一步包括會(huì)議稿記錄器,耦連到所述多個(gè)翻譯器資源,并且用于記錄由所述多個(gè)翻譯器資源從語音轉(zhuǎn)換成的文字。
21.一種為視頻會(huì)議中的多個(gè)與會(huì)者實(shí)時(shí)翻譯音頻流的方法,包括 接收來自所述多個(gè)與會(huì)者的多個(gè)音頻流;識別從所述多個(gè)與會(huì)者中的第一與會(huì)者接收到的、將被為所述多個(gè)與會(huì)者中的第二與會(huì)者翻譯的第一音頻流;將第一音頻流傳送到翻譯資源; 生成第一音頻流的翻譯;以及向第二與會(huì)者發(fā)送所述翻譯。
22.根據(jù)權(quán)利要求21所述的方法,其中識別從所述多個(gè)與會(huì)者中的第一與會(huì)者接收到的、將被為所述多個(gè)與會(huì)者中的第二與會(huì)者翻譯的第一音頻流的動(dòng)作包括 識別第一與會(huì)者所講的第一語言; 識別第二與會(huì)者期望的第二語言;以及確定第一音頻流是否包含將被翻譯的第一語言的語音。
23.根據(jù)權(quán)利要求22所述的方法,其中識別第一與會(huì)者所講的第一語言的動(dòng)作包括 請求第一與會(huì)者說出預(yù)定數(shù)量的詞;以及響應(yīng)于第一與會(huì)者說出所述預(yù)定數(shù)量的詞,自動(dòng)識別第一語言。
24.根據(jù)權(quán)利要求21所述的方法,其中將第一音頻流傳送到翻譯資源的動(dòng)作包括 將第一音頻流傳送到語音至文字引擎。
25.根據(jù)權(quán)利要求21所述的方法,其中生成第一音頻流的翻譯的動(dòng)作包括 將包含在第一音頻流中的第一語言的語音轉(zhuǎn)換為第一文字流;以及將第一文字流翻譯成第二語言的第二文字流。
26.根據(jù)權(quán)利要求25所述的方法,其中,生成第一音頻流的翻譯的動(dòng)作進(jìn)一步包括將第二文字流轉(zhuǎn)換成第二音頻流,并且其中,向第二與會(huì)者發(fā)送所述翻譯的動(dòng)作包括將第二音頻流與所述多個(gè)音頻流的子集混合以產(chǎn)生混合音頻流;和向第二與會(huì)者發(fā)送所述混合音頻流。
27.根據(jù)權(quán)利要求21所述的方法,其中生成第一音頻流的翻譯的動(dòng)作包括 由會(huì)議稿記錄器記錄第一音頻流的翻譯。
28.根據(jù)權(quán)利要求21所述的方法,其中生成第一音頻流的翻譯的動(dòng)作包括將包含在所述音頻流中的第一語言的語音轉(zhuǎn)換為第一文字流;將第一文字流翻譯成第二語言的第二文字流;和將第二語言的第二文字流轉(zhuǎn)換為字幕,并且其中向第二與會(huì)者發(fā)送所述翻譯的動(dòng)作包括將所述字幕插入視頻流中;和向第二與會(huì)者發(fā)送所述視頻流和所述字幕。
29.根據(jù)權(quán)利要求21所述的方法,其中生成第一音頻流的翻譯的動(dòng)作包括 將第一與會(huì)者識別為主與會(huì)者;將包含在第一音頻流中的第一語言的語音轉(zhuǎn)換為第一文字流; 將第一文字流翻譯成第二語言的第二文字流; 將第二語言的第二文字流轉(zhuǎn)換為字幕;以及將表示第一與會(huì)者是主與會(huì)者的指示符與所述字幕相關(guān)聯(lián)。
全文摘要
一種多語言多點(diǎn)視頻會(huì)議系統(tǒng)提供了與會(huì)者發(fā)言的實(shí)時(shí)翻譯。包含語音的音頻流可以被轉(zhuǎn)換為文字并作為字幕被插入視頻流中。發(fā)言還可以通過以下方式從一種語言翻譯成另一種語言將翻譯后的語音插入視頻流中,選擇字幕,或用由文字至語音引擎生成的其他語言的語音來代替原始音頻流。不同與會(huì)者可以根據(jù)由與會(huì)者提供的關(guān)于期望語言的信息來接收相同發(fā)言的不同翻譯。
文檔編號H04N5/445GK102209227SQ20111007625
公開日2011年10月5日 申請日期2011年3月29日 優(yōu)先權(quán)日2010年3月30日
發(fā)明者A·卡普蘭, D·利伯曼 申請人:寶利通公司