一種基于非對稱媒體的即時通信方法及系統(tǒng)的制作方法

文檔序號：7973169閱讀：114來源：國知局

專利名稱：一種基于非對稱媒體的即時通信方法及系統(tǒng)的制作方法
技術領域：
本發(fā)明涉及即時通信領域，更具體地說，涉及一種基于非對稱媒體的即時通信方法及系統(tǒng)。
背景技術：
現(xiàn)階段的即時通信方式，最典型的應用是在個人計算機(PersonalComputer，PC)上運行各種即時通信軟件，通過互聯(lián)網進行文字、語音、視頻等多媒體通信。除此之外，這種即時通信方式也能應用于移動電話終端和固定電話終端，具體實現(xiàn)與PC類似。
但是上述的通信方式均基于對稱媒體，也即，參與通信的各用戶所在的客戶端需采用相同的媒體形式(如均為文字或者均為語音)，而不支持對文字和語音的轉換。若不同的用戶選取不同的媒體形式，則在實際的通信過程中，各用戶客戶端均涉及到了文字和語音這兩種媒體形式，且每一者的輸出媒體形式須與對方的輸入媒體形式保持一致。例如，用戶A選取文字，用戶B選取語音，若兩者之間要互通信息，則不得不采取用戶A聽音、打字，用戶B看字、發(fā)音的方式，則實質上，用戶A所在客戶端的輸入媒體形式是文字、輸出媒體形式是語音，用戶B所在客戶端的輸入媒體形式是語音、輸出媒體形式是文字。
由上可知，在現(xiàn)有技術中若要實現(xiàn)非對稱媒體間的通信，客戶端不能完全獨立的選擇一種媒體形式，且輸出媒體形式受到對方所選擇的媒體形式的限制，因此通信的靈活性較低；與之對應的，要求硬件設備支持對方采用的輸入媒體形式的本地輸出，因此各硬件設備(即文字和語音的輸入輸出設備，包括鍵盤、鼠標、麥克風、揚聲器等)均要正常運行，若一方設備出現(xiàn)故障則無法實現(xiàn)非對稱媒體間的通信；另外，現(xiàn)有技術的通信方式也不具備充分的人性化特點，特殊人群之間的溝通存在障礙，例如在一位失聰用戶與一位失明用戶之間，則無法采用現(xiàn)有技術進行即時通信。
綜上所述，采用現(xiàn)有技術進行非對稱媒體間的即時通信時存在諸多限制因素，導致通信的靈活性較低，因此需要一種能夠靈活應用于非對稱媒體的即時通信方法。

發(fā)明內容
本發(fā)明的目的在于提供一種基于非對稱媒體的即時通信方法，旨在解決現(xiàn)有技術應用于非對稱媒體間通信時靈活性低的問題。
本發(fā)明的目的還在于提供一種基于非對稱媒體的即時通信系統(tǒng)，以更好地解決現(xiàn)有技術中存在的上述問題。
為了實現(xiàn)發(fā)明目的，所述基于非對稱媒體的即時通信方法包括以下步驟A.至少兩個客戶端在建立通信連接后選擇各自的即時通信媒體形式，由第一客戶端輸入與其所選媒體形式一致的媒體信息，并將所述媒體信息發(fā)送給至少第二客戶端；B.所述第二客戶端接收到所述媒體信息后，判斷是否需對所述媒體信息進行文字語音轉換，并執(zhí)行判斷結果；C.將所述媒體信息輸出，并在所述第二客戶端中播放或者顯示；所述媒體形式包括文字形式和語音形式，所述媒體信息包括文字信息和語音信息。
所述步驟A進一步包括A1.所述第一客戶端輸入媒體信息后，對所述媒體信息進行編碼和信息處理，并封裝成數(shù)據(jù)包發(fā)送給至少第二客戶端。
所述步驟A1中的信息處理包括對語音進行回聲抵消、噪聲抑制、增益控制。
所述步驟B進一步包括以下步驟B1.所述第二客戶端接收到所述數(shù)據(jù)包后，根據(jù)網絡協(xié)議解析出其中的媒體信息，并對所述媒體信息進行解碼和信息處理；B2.根據(jù)所述第二客戶端所選擇的媒體形式，判斷是否需對所述媒體信息進行文字語音轉換，若需要則執(zhí)行步驟B3，若不需要則轉所述步驟C；B3.根據(jù)語音識別技術或者語音合成技術，對所述媒體信息進行文字語音轉換。
所述步驟B1中的信息處理包括語音的后處理，所述語音的后處理是指語音增強和去噪聲處理。
所述步驟C中將所述媒體信息輸出的步驟進一步包括C1.對所述步驟B3轉換所得的媒體信息進行尺寸調整，然后輸出；所述尺寸調整包括將不足一幀長度的語音信息與其后的語音信息拼接為整幀長度；將由語音信息轉換而來的文字信息分成固定大小的數(shù)據(jù)包。
為了更好地實現(xiàn)發(fā)明目的，所述基于非對稱媒體的即時通信系統(tǒng)，包括網絡服務器，以及與所述網絡服務器相連的至少兩個客戶端，所述客戶端包括輸入輸出模塊、信息處理模塊和收發(fā)模塊，所述客戶端進一步包括文字語音轉換模塊；所述文字語音轉換模塊與所述輸入輸出模塊及信息處理模塊相連，用于根據(jù)各客戶端所選擇的即時通信媒體形式，判斷所述客戶端之間交互并由所述信息處理模塊發(fā)送來的媒體信息是否需要進行文字語音轉換，若需要則執(zhí)行所述文字語音轉換，并將所述媒體信息轉發(fā)至所述輸入輸出模塊。
所述輸入輸出模塊與所述客戶端的文字語音轉換模塊及信息處理模塊相連，同時與輸入設備和輸出設備相連，用于實現(xiàn)媒體信息的輸入和輸出。
所述輸入輸出模塊進一步用于在對所述文字語音轉換模塊轉換得到的媒體信息輸出前進行尺寸調整，包括將不足一幀長度的語音信息與其后的語音信息拼接為整幀長度；將由語音信息轉換而來的文字信息分成固定大小的數(shù)據(jù)包。
所述信息處理模塊用于對所述媒體信息進行編碼、解碼及信息處理，所述信息處理包括對語音進行回聲抵消、噪聲抑制、增益控制、語音增強和去噪聲處理。
本發(fā)明通過對非對稱媒體用戶之間交互的媒體信息在接收端進行自動轉換后輸出，增強了通信的靈活性，同時也使得通信更加人性化。

圖1是本發(fā)明中基于非對稱媒體的即時通信系統(tǒng)結構圖；圖2是本發(fā)明中基于非對稱媒體的即時通信方法流程圖。
具體實施例方式
為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白，以下結合附圖及實施例，對本發(fā)明進行進一步詳細說明。應當理解，此處所描述的具體實施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。
本發(fā)明中，若進行即時通信的各用戶客戶端選擇了不同的媒體形式(語音形式或文字形式)，則當其中一個客戶端接收到另一客戶端發(fā)送的媒體信息(語音信息或文字信息)后，首先利用語音識別技術或語音合成技術將該媒體信息進行文字語音轉換，再在該客戶端中顯示或播放。這種即時通信方式便捷地實現(xiàn)了非對稱媒體間的互通，用戶可任意選擇語音或文字中的一種作為通信的媒體形式，而不受對方選擇的媒體形式的限制，從而使得用戶之間的即時通信方式更加靈活。
圖1示出了本發(fā)明中基于非對稱媒體的即時通信系統(tǒng)的結構，該系統(tǒng)采用客戶端/服務器(Client/Server，CS)模式，包括網絡服務器300，以及多個與之相連的客戶端，如圖1所示的第一客戶端100以及第二客戶端200。應當說明的是，本發(fā)明的系統(tǒng)中客戶端的數(shù)量并不限于以上兩者，圖1給出的系統(tǒng)結構只是一個最簡示例，本發(fā)明的系統(tǒng)可在此基礎上進行擴展。
網絡服務器300用于提供客戶端注冊，維護客戶端信息，并管理所有客戶端(包括第一客戶端100和第二客戶端200)。本發(fā)明涉及的網絡典型的為因特網，除此之外還包括移動電話網和固定電話網。
第一客戶端100包括輸入輸出模塊101、文字語音轉換模塊102、信息處理模塊103和收發(fā)模塊104，其中輸入輸出模塊101與文字語音轉換模塊102、信息處理模塊103相連，同時與輸入設備及輸出設備相連，其功能包括(1)當?shù)谝豢蛻舳?00作為發(fā)送客戶端時，輸入輸出模塊101接收本端輸入設備輸入的媒體信息(語音或者文字)，并將該媒體信息送入信息處理模塊103中；(2)當?shù)谝豢蛻舳?00作為接收客戶端時，輸入輸出模塊101將第二客戶端200發(fā)送并經由文字語音轉換模塊102而來的媒體信息(語音或者文字)送到本端輸出設備播放或者顯示；(3)當?shù)谝豢蛻舳?00作為接收客戶端時，輸入輸出模塊101還用于在對文字語音轉換模塊102轉換得到的媒體信息輸出前進行尺寸調整，包括對不足一幀長度的語音信息進行拼接處理，也即截取其后的語音信息從而拼接為整幀長度；將由語音信息轉換而來的文字信息分成固定大小的數(shù)據(jù)包。輸入輸出模塊101與多種輸入設備和輸出設備相連，本發(fā)明涉及到的典型的輸入設備包括鍵盤、鼠標、麥克風等，輸出設備包括顯示器、揚聲器等。應當說明的是，該輸入輸出模塊101與這些輸入設備、輸出設備之間并無明確界限，可包括后兩者作為一個集成的功能模塊，也可獨立存在。
文字語音轉換模塊102與輸入輸出模塊101、信息處理模塊103相連，其主要在媒體信息的接收端中起作用。當信息處理模塊103對所接收到的媒體信息進行解碼和信息處理后，則轉發(fā)至文字語音轉換模塊102中，文字語音轉換模塊102首先根據(jù)第一客戶端100中所選擇的媒體形式判斷是否需要對該媒體信息進行文字語音轉換，如需要則執(zhí)行文字語音轉換，若不需要則直接轉發(fā)至輸入輸出模塊101。該文字語音轉換模塊102對媒體信息進行文字語音轉換，所采取的技術是語音識別和語音合成。語音識別技術就是對輸入的語音數(shù)字信號進行分析識別得到相應的文字信息的過程，實現(xiàn)輸入語音輸出文字。語音識別是語音信號處理領域的前沿技術之一，涉及語音信號分析和處理、智能算法、模式識別等方面。語音合成技術，也即文語轉換(Text-To-Speech，TTS)，通過語音合成技術可以把輸入的文字轉化為語音信號輸出，語音合成主要是對輸入的文字進行詞法語法句法分析，分析完成后結合語音庫，生成需要的語音信號。關于語音識別和語音合成的詳細內容，可參考由蔡蓮紅、黃德智、蔡銳所著，并由清華大學出版社于2003年11月1日出版的《現(xiàn)代語音技術基礎與應用》。
信息處理模塊103與輸入輸出模塊101、文字語音轉換模塊102以及收發(fā)模塊104相連，其功能包括(1)若第一客戶端100為發(fā)送客戶端，則該信息處理模塊103對輸入輸出模塊101所輸入的媒體信息進行編碼和信息處理，該信息處理包括對語音進行回聲抵消、噪聲抑制、增益控制等；(2)若第一客戶端100為接收客戶端，則該信息處理模塊103對收發(fā)模塊104接收到的數(shù)據(jù)包，首先根據(jù)網絡協(xié)議解析其所包含的媒體信息，并進行解碼和信息處理，該信息處理包括執(zhí)行語音的后處理，例如語音增強和去噪聲處理等。
收發(fā)模塊104與信息處理模塊103相連，用于將信息處理模塊103處理后的媒體信息發(fā)送至第二客戶端200，以及接收第二客戶端200發(fā)送的媒體信息，并轉發(fā)至信息處理模塊103。
第二客戶端200則包括輸入輸出模塊201、文字語音轉換模塊202、信息處理模塊203和收發(fā)模塊204，分別與第一客戶端100中的輸入輸出模塊101、文字語音轉換模塊102、信息處理模塊103、收發(fā)模塊104具有相同的結構和功能，此處不再贅述。
圖2示出了本發(fā)明中基于非對稱媒體的即時通信方法流程，包括以下步驟在步驟S201中，各客戶端(即至少第一客戶端100和第二客戶端200)建立通信連接，并選擇各自的媒體形式，本發(fā)明中提及的媒體形式主要包括文字形式和語音形式。
在步驟S202中，第一客戶端100通過其輸入輸出模塊101，輸入與其所選媒體形式一致的媒體信息，本發(fā)明所稱的媒體信息包括文字信息和語音信息。
在步驟S203中，第一客戶端100輸入媒體信息后，利用信息處理模塊103對該媒體信息進行編碼和信息處理。本發(fā)明中此處所稱的信息處理包括對語音進行回聲抵消、噪聲抑制、增益控制等。
在步驟S204中，第一客戶端100將該媒體信息封裝成數(shù)據(jù)包，并利用收發(fā)模塊104將該數(shù)據(jù)包發(fā)送給第二客戶端200。
在步驟S205中，第二客戶端200利用其收發(fā)模塊204接收該媒體信息的數(shù)據(jù)包，并根據(jù)網絡協(xié)議解析出其所包含的媒體信息。
在步驟S206中，第二客戶端200利用其信息處理模塊203對該媒體信息進行解碼和信息處理，并將處理后的媒體信息發(fā)送至文字語音轉換模塊202。此步驟中的信息處理包括執(zhí)行語音的后處理，例如語音增強和去噪聲處理等。
在步驟S207中，第二客戶端200中的文字語音轉換模塊202收到該媒體信息后，首先判斷是否需要對其進行文字語音轉換，若需要則執(zhí)行步驟S208，若不需要則轉步驟S209。此步驟與前述步驟S201對應，若兩客戶端最初所選擇的媒體形式不一致，此處則需要進行文字語音轉換，若媒體形式一致則不需要。
在步驟S208中，文字語音轉換模塊202利用語音識別技術和語音合成技術，完成對該媒體信息的文字語音轉換(1)語音識別技術就是對輸入的語音數(shù)字信號進行分析識別得到相應的文字信息的過程，實現(xiàn)輸入語音輸出文字，其為語音信號處理領域的前沿技術，涉及語音信號分析和處理、智能算法、模式識別等方面；(2)語音合成技術也即文語轉換(Text-To-Speech，TTS)，其主要是對輸入的文字進行詞法語法句法分析，分析完成后結合語音庫，生成需要的語音信號。關于語音識別和語音合成的詳細內容，可參考由蔡蓮紅、黃德智、蔡銳所著，并由清華大學出版社于2003年11月1日出版的《現(xiàn)代語音技術基礎與應用》。
在步驟S209中，通過輸入輸出設備201將媒體信息輸出，并在第二客戶端200中播放或者顯示。其中，將媒體信息輸出的步驟進一步包括對媒體信息進行尺寸調整，然后輸出。由于文字和語音信息編碼后是按照數(shù)據(jù)包發(fā)送和接收的，一包文字(或語音)信息的長度是固定的。一包文字信息是網絡傳輸和顯示的單位；而對于語音信息，其網絡傳輸單位是包，播放和采集單位卻是幀，一包語音數(shù)據(jù)包含整數(shù)幀。(1)若兩客戶端的媒體形式選擇一致如均為語音，則每次取解碼后的一個語音幀數(shù)據(jù)送到播放緩沖區(qū)由輸出設備播放；如均為文字，每次取一包解碼后的文字信息，送給輸出設備顯示。(2)若兩客戶端的媒體形式選擇不一致對由文字合成的語音，需要對語音作拼接處理，因為一包文字信息合成的語音長度可能不是整數(shù)幀，因此會出現(xiàn)不足一幀長度的情況，對不足一幀長度的數(shù)據(jù)，先在其后補充靜音數(shù)據(jù)，當下一次的語音數(shù)據(jù)到來時則截取相應長度的語音數(shù)據(jù)以替代靜音部分進行拼接，從而保證語音的連續(xù)性，每次取合成語音數(shù)據(jù)播放時，先判斷播放緩沖區(qū)中是否有補充了靜音數(shù)據(jù)而且還未播放的語音幀，如果有則取相同長度數(shù)據(jù)替換靜音部分，如果沒有就取完整的一幀數(shù)據(jù)送到播放緩沖區(qū)；對由語音轉換得到的文字，由于一包語音轉換得到的文字可能不是整數(shù)包，因此要進行分包處理，將文字信息分成固定大小的數(shù)據(jù)包，一次取一包顯示，不足一包的則將其后作為空信息處理，只顯示有效的文字信息。至此，則完成了一次即時通信的完整流程。
應當說明的是，本發(fā)明典型的應用但并不限定于因特網，還可應用于固定電話網和移動電話網，因此客戶端可為PC終端、固定電話終端以及移動電話終端等。
另外，本發(fā)明解決了非對稱媒體的即時通信問題，但同時仍適用于對稱媒體間的通信，用戶可靈活選擇自身客戶端的媒體形式。
以上所述僅為本發(fā)明的較佳實施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換和改進等，均應包含在本發(fā)明的保護范圍之內。
權利要求
1.一種基于非對稱媒體的即時通信方法，其特征在于，所述方法包括以下步驟A.至少兩個客戶端在建立通信連接后選擇各自的即時通信媒體形式，由第一客戶端輸入與其所選媒體形式一致的媒體信息，并將所述媒體信息發(fā)送給至少第二客戶端；B.所述第二客戶端接收到所述媒體信息后，判斷是否需對所述媒體信息進行文字語音轉換，并執(zhí)行判斷結果；C.將所述媒體信息輸出，并在所述第二客戶端中播放或者顯示；所述媒體形式包括文字形式和語音形式，所述媒體信息包括文字信息和語音信息。
2.根據(jù)權利要求1所述的基于非對稱媒體的即時通信方法，其特征在于，所述步驟A進一步包括A1.所述第一客戶端輸入媒體信息后，對所述媒體信息進行編碼和信息處理，并封裝成數(shù)據(jù)包發(fā)送給至少第二客戶端。
3.根據(jù)權利要求2所述的基于非對稱媒體的即時通信方法，其特征在于，所述步驟A1中的信息處理包括對語音進行回聲抵消、噪聲抑制、增益控制。
4.根據(jù)權利要求2所述的基于非對稱媒體的即時通信方法，其特征在于，所述步驟B進一步包括以下步驟B1.所述第二客戶端接收到所述數(shù)據(jù)包后，根據(jù)網絡協(xié)議解析出其中的媒體信息，并對所述媒體信息進行解碼和信息處理；B2.根據(jù)所述第二客戶端所選擇的媒體形式，判斷是否需對所述媒體信息進行文字語音轉換，若需要則執(zhí)行步驟B3，若不需要則轉所述步驟C；B3.根據(jù)語音識別技術或者語音合成技術，對所述媒體信息進行文字語音轉換。
5.根據(jù)權利要求4所述的基于非對稱媒體的即時通信方法，其特征在于，所述步驟B1中的信息處理包括語音的后處理，所述語音的后處理是指語音增強和去噪聲處理。
6.根據(jù)權利要求4所述的基于非對稱媒體的即時通信方法，其特征在于，所述步驟C中將所述媒體信息輸出的步驟進一步包括C1.對所述步驟B3轉換所得的媒體信息進行尺寸調整，然后輸出；所述尺寸調整包括將不足一幀長度的語音信息與其后的語音信息拼接為整幀長度；將由語音信息轉換而來的文字信息分成固定大小的數(shù)據(jù)包。
7.一種基于非對稱媒體的即時通信系統(tǒng)，包括網絡服務器，以及與所述網絡服務器相連的至少兩個客戶端，所述客戶端包括輸入輸出模塊、信息處理模塊和收發(fā)模塊，其特征在于，所述客戶端進一步包括文字語音轉換模塊；所述文字語音轉換模塊與所述輸入輸出模塊及信息處理模塊相連，用于根據(jù)各客戶端所選擇的即時通信媒體形式，判斷所述客戶端之間交互并由所述信息處理模塊發(fā)送來的媒體信息是否需要進行文字語音轉換，若需要則執(zhí)行所述文字語音轉換，并將所述媒體信息轉發(fā)至所述輸入輸出模塊。
8.根據(jù)權利要求7所述的基于非對稱媒體的即時通信系統(tǒng)，其特征在于，所述輸入輸出模塊與所述客戶端的文字語音轉換模塊及信息處理模塊相連，同時與輸入設備和輸出設備相連，用于實現(xiàn)媒體信息的輸入和輸出。
9.根據(jù)權利要求7所述的基于非對稱媒體的即時通信系統(tǒng)，其特征在于，所述輸入輸出模塊進一步用于在對所述文字語音轉換模塊轉換得到的媒體信息輸出前進行尺寸調整，包括將不足一幀長度的語音信息與其后的語音信息拼接為整幀長度；將由語音信息轉換而來的文字信息分成固定大小的數(shù)據(jù)包。
10.根據(jù)權利要求7所述的基于非對稱媒體的即時通信系統(tǒng)，其特征在于，所述信息處理模塊用于對所述媒體信息進行編碼、解碼及信息處理，所述信息處理包括對語音進行回聲抵消、噪聲抑制、增益控制、語音增強和去噪聲處理。
全文摘要
本發(fā)明涉及即時通信領域，提供了一種基于非對稱媒體的即時通信方法及系統(tǒng)。所述方法包括以下步驟A.至少兩個客戶端在建立通信連接后選擇各自的即時通信媒體形式，由第一客戶端輸入與其所選媒體形式一致的媒體信息，并將所述媒體信息發(fā)送給至少第二客戶端；B.所述第二客戶端接收到所述媒體信息后，判斷是否需對所述媒體信息進行文字語音轉換，并執(zhí)行判斷結果；C.將所述媒體信息輸出，并在所述第二客戶端中播放或者顯示；所述媒體形式包括文字形式和語音形式，所述媒體信息包括文字信息和語音信息。本發(fā)明通過對非對稱媒體用戶之間交互的媒體信息在接收端進行自動轉換后輸出，增強了通信的靈活性，同時也使得通信更加人性化。
文檔編號H04L12/16GK101079836SQ20061015782
公開日2007年11月28日申請日期2006年12月21日優(yōu)先權日2006年12月21日
發(fā)明者王新亮申請人:騰訊科技(深圳)有限公司

完整全部詳細技術資料下載