專利名稱:基于多模態(tài)輔助的實現(xiàn)跨語言溝通系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明屬于多媒體分析、網(wǎng)絡(luò)通訊領(lǐng)域,涉及基于多模態(tài)輔助的實現(xiàn)跨語言溝通的方法。
背景技術(shù):
隨著通訊技術(shù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,出現(xiàn)了與郵件、電話、電報等傳統(tǒng)通訊方式完全不同的一種網(wǎng)絡(luò)即時通訊系統(tǒng),比如MSN和QQ。傳統(tǒng)的郵件和電報以文字為主,電話以語音為主,而即時通訊不僅可以使用文字和語音,還可以輔助豐富的視頻、圖片等多媒體手段。通過即時通訊系統(tǒng),遠(yuǎn)隔重洋的人們可以實現(xiàn)如面對面的實時交談。整個地球已經(jīng)成為名副其實的地球村。對于說不同語言的對話者來說,語言問題仍然是即時通訊中難以逾越的障礙。近年來,由于機(jī)器翻譯技術(shù)取得了長足進(jìn)步,不同語言之間的用戶的交流存在的語言問題在某種程度上通過機(jī)器翻譯的技術(shù)得到了一定的解決。但是機(jī)器翻譯存在兩個明顯的缺點。 第一就是不同語言之間的準(zhǔn)確翻譯。但是機(jī)器翻譯仍然只能對一些簡單的對話進(jìn)行自動翻譯。即使是世界上使用人數(shù)最多的兩種語言英語和漢語,它們之間的自動翻譯準(zhǔn)確率也還是無法完全滿足日常使用需要。如果考慮到世界上眾多的少數(shù)民族語言,不同語言之間準(zhǔn)確的自動翻譯可能仍然是一個任重道遠(yuǎn)的問題。第二個就是詞義的多義性是機(jī)器翻譯中遇到的另一個挑戰(zhàn)性的難題。為增強(qiáng)交流的從文本到圖像的合成系統(tǒng),現(xiàn)有技術(shù)中將輸入的文本中主體內(nèi)容以圖片的形式表現(xiàn)出來。這個問題的解決是通過三個優(yōu)化來完成從文本到圖片的轉(zhuǎn)換,即基于輸入的文本最大化關(guān)鍵字出現(xiàn)的概率、基于輸入文本和已選擇的關(guān)鍵字最大化相應(yīng)的圖片出現(xiàn)的概率和基于輸入文本,已選關(guān)鍵字和對應(yīng)的圖片最大化文本和圖片的空間分布。 這樣基于這三個優(yōu)化最終完成從文本到圖片的轉(zhuǎn)化。但是這個系統(tǒng)存在以下三個缺點1).系統(tǒng)處理速度慢。這個系統(tǒng)由于要計算優(yōu)化,這樣會導(dǎo)致圖片到文本的轉(zhuǎn)化速度變慢;2).系統(tǒng)的界面不友好。由于要對輸入的文本和給出的圖片一起進(jìn)行優(yōu)化得出空間布局再呈現(xiàn)給用戶。如果將這樣的文本圖片混雜的布局應(yīng)用到用戶之間對話的情況,勢必會給用戶造成不友好的感覺。3).系統(tǒng)不易使用。由于是終端軟件,這樣勢必要求用戶自行下載軟件??梢越柚W(wǎng)頁來解決系統(tǒng)的不易使用的缺點。
發(fā)明內(nèi)容
本發(fā)明的目的是解決現(xiàn)有技術(shù)處理速度慢、不易使用的技術(shù)缺陷,通過多模態(tài)信息輔助使用不同語言的人能夠順暢地在線交流。通過圖像、視頻等多模態(tài)信息減少傳統(tǒng)自動翻譯中產(chǎn)生的歧義性和多義性,并且輔助對用戶對話內(nèi)容的語義理解,由此本發(fā)明提供一種基于多模態(tài)輔助的實現(xiàn)跨語言溝通的方法。
為實現(xiàn)所述目的,本發(fā)明的第一方面提供一種基于多模態(tài)輔助的跨語言溝通系統(tǒng),該系統(tǒng)的技術(shù)方案包括前臺交互模塊、數(shù)據(jù)管理模塊和語義關(guān)聯(lián)模塊,其中前臺交互模塊的輸入端接受用戶輸入的文本聊天內(nèi)容并對用戶聊天的內(nèi)容進(jìn)行預(yù)處理,得到用戶聊天的文本信息,并通過前臺交互模塊的前后臺交互模塊的輸出端傳送處理后的用戶文本聊天內(nèi)容;前臺交互模塊的聊天頁面為用戶顯示聊天雙方的對話的文字內(nèi)容和根據(jù)雙方談話的內(nèi)容系統(tǒng)推薦出來的多媒體圖片;語義關(guān)聯(lián)模塊的輸入端與前臺交互模塊輸出端連接,接收并對用戶的文本聊天內(nèi)容進(jìn)行分析,利用自然語言處理工具提取出雙方談話的主要內(nèi)容,得到并輸出文本信息關(guān)聯(lián)上翻譯的文本和相對應(yīng)的多媒體信息,及根據(jù)文本聊天內(nèi)容、翻譯的內(nèi)容和相應(yīng)的多媒體信息生成一個多模態(tài)摘要;數(shù)據(jù)管理模塊的輸入端與語義關(guān)聯(lián)模塊連接輸出端連接,數(shù)據(jù)管理模塊要對新輸入的文本聊天內(nèi)容、翻譯的內(nèi)容和相應(yīng)的多媒體信息進(jìn)行存儲,同時把歷史的用戶信息連同新的用戶信息進(jìn)行整合,生成并顯示所有的聊天雙方的對話的文字內(nèi)容和根據(jù)雙方談話的內(nèi)容系統(tǒng)推薦出來的多媒體圖片信息。優(yōu)選實施例,當(dāng)后臺的語義關(guān)聯(lián)模塊收到用戶發(fā)送過來的文本信息之后,語義關(guān)聯(lián)模塊為了幫助不同語種的聊天用戶能夠從使用的語言的角度來理解對方的說話的含義, 將Google翻譯的結(jié)果集成進(jìn)來;這樣除了原始的用戶聊天信息以外,還附帶上了對這個聊天內(nèi)容的基于Google翻譯的用戶聊天的譯文。優(yōu)選實施例,語義關(guān)聯(lián)模塊提取出雙方談話的主要內(nèi)容是將這些主要內(nèi)容作為關(guān)鍵字,采用基于文本的圖像檢索從圖像數(shù)據(jù)庫中檢索出來相應(yīng)的候選圖片集。為實現(xiàn)所述目的,本發(fā)明的第二方面提供一種使用基于多模態(tài)輔助的跨語言溝通系統(tǒng)實現(xiàn)跨語言溝通的方法,該方法以用戶對話聊天為基礎(chǔ),根據(jù)文本解析技術(shù)對談話內(nèi)容分析得到的結(jié)果,為用戶提供多媒體元素以輔助語言交流上存在障礙的或者文化背景存在差異的用戶之間的語義理解,所述方法實現(xiàn)步驟包括以下步驟Sl 用戶首先通過語義聊天的前臺界面發(fā)送自己想和對方的聊天的文字內(nèi)容,前臺界面通過Ajax構(gòu)建的前后臺交互模塊向后臺的語義關(guān)聯(lián)模塊傳遞用戶聊天的文本信息,采用基于主題的跨模態(tài)分析方法對用戶談話內(nèi)容進(jìn)行分析,利用自然語言處理工具自動地提取對話中的中心議題及關(guān)鍵字;步驟S2 語義關(guān)聯(lián)模塊根據(jù)對話中的中心議題及關(guān)鍵字信息,采用基于文本的圖像檢索自動地從數(shù)據(jù)庫或者互聯(lián)網(wǎng)根據(jù)談話主題檢索相關(guān)的圖片集和視頻片段并提供給談話雙方;步驟S3 系統(tǒng)根據(jù)談話雙方的文本聊天信息以及與之相對應(yīng)的圖片和視頻片段內(nèi)容,生成一個多模態(tài)的談話摘要,最終以多媒體的形式來實現(xiàn)不同語種的用戶之間順暢的語義交流;同時,系統(tǒng)根據(jù)談話雙方的文本聊天歷史信息以及與之相對應(yīng)的圖片和視頻內(nèi)容,能為談話雙方生成一個多模態(tài)的談話摘要。優(yōu)選實施例,所述多模態(tài)的談話摘要包含文本、音頻、圖像和視頻信息,為用戶提供多媒體元素以輔助語言交流上存在障礙的或者文化背景存在差異的用戶之間的語義理解。優(yōu)選實施例,所述圖片和視頻片段內(nèi)容是通過搜索從網(wǎng)絡(luò)自動扒取,或從一個預(yù)先已標(biāo)注好的多媒體庫中直接獲取。優(yōu)選實施例,所述多模態(tài)的談話摘要是基于主題的摘要,使用的關(guān)系網(wǎng)絡(luò)并根據(jù)統(tǒng)計上次談話中出現(xiàn)在一個預(yù)定義預(yù)料庫中的詞語共生頻率得到檢測主題。本發(fā)明的有益效果本發(fā)明的核心是如何通過多媒體信息(圖像或者視頻)來對文本信息進(jìn)行描述。本發(fā)明提出的基于多模態(tài)輔助的跨語言溝通系統(tǒng)能為在線即時通訊提供友好和方便的環(huán)境,有三個主要特點第一友好性,由于采用了基于話題相關(guān)的圖像或視頻搜索技術(shù)輔助文本內(nèi)容理解,從而大大減少了翻譯的多義性和歧義性;第二交互性,使得系統(tǒng)能夠更好地滿足用戶個性化的需求;第三易用性,所提出的系統(tǒng)能夠根據(jù)談話記錄自動地生成多媒體的摘要。為了輔助使用者之間的交流與理解,本發(fā)明的系統(tǒng)采用了基于主題的跨模態(tài)分析方法。系統(tǒng)根據(jù)談話雙方的文本聊天信息以及與之相對應(yīng)的圖片和視頻內(nèi)容,生成一個多模態(tài)的談話摘要。這樣,由于這個多模態(tài)的談話通過包含豐富的內(nèi)容,即非常直觀易懂的圖像、視頻、文本等的多模態(tài)輔助信息,從而有效消除純文本之間的自動翻譯出現(xiàn)的歧義性, 提高了語言交流的效率及質(zhì)量,實現(xiàn)不同語種的用戶之間進(jìn)行順暢的語義交流。
圖1是本發(fā)明基于多模態(tài)輔助的跨語言溝通系統(tǒng)的界面框圖;圖2是本發(fā)明基于多模態(tài)輔助的跨語言溝通系統(tǒng)的結(jié)構(gòu)框圖;圖3a和圖北給出了一個預(yù)定披薩的示例結(jié)果;圖4針對談話內(nèi)容的多媒體摘要示例。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。本發(fā)明提出基于多模態(tài)輔助的跨語言溝通系統(tǒng)及實現(xiàn)跨語言溝通的方法,所述方法利用前臺交互模塊1、數(shù)據(jù)管理模塊2和語義關(guān)聯(lián)模塊3,通過分析談話內(nèi)容,利用自然語言處理工具能夠自動地提取對話中的中心議題及關(guān)鍵字,并語義關(guān)聯(lián)模塊3根據(jù)檢測到的中心議題與關(guān)鍵字信息,自動地搜索相關(guān)的圖片和視頻片段并以恰當(dāng)?shù)姆绞教峁┙o談話雙方,從而達(dá)到促進(jìn)彼此的了解和溝通。這里,作為輔助理解的圖片和視頻,既可以通過搜索的方法從網(wǎng)絡(luò)自動扒取,也可以從一個預(yù)先已標(biāo)注好的多媒體庫中直接獲取。最后,系統(tǒng)根據(jù)談話雙方的文本聊天信息以及與之相對應(yīng)的圖片和視頻內(nèi)容,生成一個多模態(tài)的談話摘要。圖1示出了本發(fā)明提出了一個輔助跨語言溝通的多媒體聊天系統(tǒng)的用戶交互界面,它能夠為使用不同語言的用戶進(jìn)行交流提供一個友好、可交互的及時溝通環(huán)境。其中主要包括了三個方面的功能基于及時翻譯的文本通信,一個基于談話主題的圖片或視頻檢索,以及針對談話內(nèi)容的多媒體摘要(圖4示出)。圖1的最上面的部分主要是用來顯示系統(tǒng)的名字以及用戶聊天談話的主題。接下來的是系統(tǒng)界面的主要顯示區(qū),即文本對話和多媒體輔助信息顯示,例如問路、買車、定賓館等。圖1中的右側(cè)部分是基于及時翻譯的文本通信,用戶文本聊天區(qū)域呈現(xiàn)用戶基本的文字聊天信息機(jī)相關(guān)的Google翻譯的文本信息;圖1左側(cè)部分是一個基于談話主題的圖片或視頻檢索,以及針對談話內(nèi)容的多媒體摘要,多媒體內(nèi)容展示區(qū)基于用戶談話的內(nèi)容為用戶呈現(xiàn)相關(guān)的多媒體信息輔助用戶的語
義理解。如圖2示出本發(fā)明基于多模態(tài)輔助的跨語言溝通系統(tǒng)的結(jié)構(gòu)框圖?;诙嗄B(tài)輔助的跨語言溝通系統(tǒng)的框架分成三個組成部分,即前臺交互模塊1,數(shù)據(jù)管理模塊2和語義關(guān)聯(lián)模塊3。其中前臺設(shè)計包括聊天界面和前后臺交互兩個部分。其中前臺交互模塊1接受用戶輸入的文本聊天內(nèi)容并對用戶聊天的內(nèi)容進(jìn)行預(yù)處理,得到用戶聊天的文本信息; 用戶的聊天文字內(nèi)容通過前臺交互模塊1的前后臺交互字模塊的輸出端將處理后的用戶文本聊天內(nèi)容傳送給語義關(guān)聯(lián)模塊3,前臺交互模塊1的聊天頁面為用戶顯示聊天雙方的對話的文字內(nèi)容和根據(jù)雙方談話的內(nèi)容系統(tǒng)推薦出來的多媒體圖片。語義關(guān)聯(lián)模塊3的輸入端與前臺交互模塊1輸出端連接,接收并通過對用戶的文字聊天內(nèi)容進(jìn)行分析之后,利用自然語言處理工具提取出雙方談話的主要內(nèi)容,得到并輸出文本信息關(guān)聯(lián)上翻譯的文本和相對應(yīng)的多媒體信息,及根據(jù)文本聊天內(nèi)容、翻譯的內(nèi)容和相應(yīng)的多媒體信息生成一個多模態(tài)摘要;語義關(guān)聯(lián)模塊3將文本聊天內(nèi)容、翻譯的內(nèi)容和相應(yīng)的多媒體信息一起輸出到數(shù)據(jù)管理模塊2。數(shù)據(jù)管理模塊2的輸入端與語義關(guān)聯(lián)模塊3連接輸出端連接,數(shù)據(jù)管理模塊2要對新輸入文本聊天內(nèi)容、翻譯的內(nèi)容和相應(yīng)的多媒體的信息進(jìn)行存儲。同時要把歷史用戶信息連同新的用戶信息進(jìn)行整合,生成并顯示所有的聊天雙方的對話的文字內(nèi)容和根據(jù)雙方談話的內(nèi)容系統(tǒng)推薦出來的多媒體圖片信息;最后一并返還給前臺交互模塊1。最終前臺交互模塊1的聊天頁面就會將所有的信息全部顯示給用戶。下面詳細(xì)說明一下模塊的工作流程。用戶首先通過聊天界面向前臺交互模塊1發(fā)送聊天內(nèi)容。續(xù)請見圖1用戶的語義聊天界面是分成兩個主要的部分,一部分就是顯示傳統(tǒng)的聊天雙方的對話的文字內(nèi)容的部分,另一部分就是顯示根據(jù)雙方談話的內(nèi)容系統(tǒng)推薦出來的多媒體圖片列表。這個時候前臺界面通過Ajax構(gòu)建的前后臺交互模塊向后臺傳遞用戶輸入的文字聊天的文本信息。后臺框架是分成兩個部分,一部分是數(shù)據(jù)管理模塊2,另一部分是語義關(guān)聯(lián)模塊3。當(dāng)后臺收到用戶發(fā)送過來的文本信息之后,語義關(guān)聯(lián)模塊3為了幫助不同語種的聊天用戶能夠從自身的使用的語言的角度來理解對方的說話的含義,將Google翻譯的結(jié)果集成進(jìn)來。這樣除了原始的用戶聊天信息以外,還附帶上了對這個聊天內(nèi)容的基于Google翻譯的用戶聊天的譯文。語義關(guān)聯(lián)模塊3對文本信息利用自然語言處理工具提取出雙方談話的主要內(nèi)容。這個時候,語義關(guān)聯(lián)模塊3首先將這些主要內(nèi)容作為關(guān)鍵字,采用基于文本的圖像檢索從圖像數(shù)據(jù)庫中檢索出來相應(yīng)的候選圖片集。最后用戶的所有和對話和相應(yīng)的多媒體信息可以用來生成一個多模態(tài)摘要。以一個預(yù)定披薩的示例結(jié)果為例說明一下生成的多媒體摘要,如圖4所示。從圖4給出的這個基于多模態(tài)的摘要看出,用戶在和披薩店的貨物員的對話中,進(jìn)行了披薩種類、飲料和付款方式的選擇。用戶通過聊天系統(tǒng)反饋回來的相應(yīng)的披薩店的披薩的圖片,能夠更好地根據(jù)自己的意愿進(jìn)行選擇。這個多模態(tài)摘要也有利于用戶日后想再次想定披薩,可以根據(jù)這個多模態(tài)摘要提供的多媒體信息來幫助用戶進(jìn)行回顧。下面對圖2中的語義關(guān)聯(lián)機(jī)制進(jìn)行闡述。語義關(guān)聯(lián)機(jī)制主要分成三個部分,即基于即時翻譯的文本通信、基于話題和圖片的視頻檢索以及最后基于用戶文本聊天內(nèi)容和相應(yīng)的多媒體信息生成的多模態(tài)摘要。(1).基于及時翻譯的文本通信類似大多數(shù)的及時通信系統(tǒng),本發(fā)明提出的系統(tǒng)也支持最基本的文本通信。但是, 由于談話的雙方可能具有不同的語言背景。例如,當(dāng)一個說英語的美國人和一個說漢語的中國人在網(wǎng)上交談,美國人不懂漢語,而中國人又不懂英語,通過普通的文本交談不能使雙方無障礙的溝通。為此,本發(fā)明的系統(tǒng)集成了一個簡單的機(jī)器翻譯功能,在聊天時,將說話者的語言自動翻譯為接受者的語言后再顯示出來,這樣就能夠保證談話雙方能夠大致了解對方的意圖。(2).基于話題的圖片和視頻檢索盡管有機(jī)器翻譯作為橋梁,跨語言的溝通仍然不能令人十分滿意。究其原意,主要在于機(jī)器翻譯的準(zhǔn)確性(翻譯的目標(biāo)語言的可理解程度)依然偏低。主要語種間的翻譯結(jié)果,例如英語與漢語之間,仍然還達(dá)不到實用的標(biāo)準(zhǔn)。另外,由于日常用語中多義詞與句子的存在,導(dǎo)致機(jī)器翻譯技術(shù)也難以滿足現(xiàn)實的需要。圖3a中示出食品包括海食品、水果、 肉。水果包括香蕉、蘋果、桔子,例如“蘋果”一詞既可以表示一種水果,也可以表示蘋果公司(圖3a)。為了營造一種易于理解的、沉浸式的在線溝通環(huán)境,我們設(shè)計了一種基于主題的圖片/視頻檢索子模塊來輔助不同語言背景的用戶相互交流。其中,話題檢測、圖片檢索以及相關(guān)反饋是三個主要功能。話題檢測通過兩種途徑來實現(xiàn)。第一是用戶從一個預(yù)定義的話題列表中選擇一個話題。不同的話題與不同的已標(biāo)注的(通過手工或者學(xué)習(xí)的方法得到標(biāo)注)圖片/視頻數(shù)據(jù)庫相關(guān)聯(lián)。第二種方法則是通過抽取文本分析提取主題關(guān)鍵詞。在一次對話中,可以抽取許多表示談話內(nèi)容的實體詞。根據(jù)這些實體詞,我們首先建立一個類似WordNet的語義關(guān)系樹,它對詞間的語義繼承關(guān)系進(jìn)行了刻畫,如圖3a所示,詞“蘋果”,“香蕉”以及“桔子” 都屬于食品類中的水果子類,而圖北所示“蘋果”一詞同時可能又同時與“戴爾”,“聯(lián)想” 一道屬于電腦品牌這一類,圖北示出“蘋果”電腦品牌例子包括臺式電腦mac、平板電腦 ipad及智能手機(jī)iphone。上述的這些語義關(guān)系可以從WordNet中所抽取得到,也可以通過使用通過統(tǒng)計單詞在一個預(yù)定義的語料庫中的“詞頻-反向文檔頻率”權(quán)重(TF-IDF)所得到。一旦我們從對話中抽取到關(guān)鍵詞,系統(tǒng)就可以通過分析關(guān)鍵詞間的語義關(guān)系來自動地推斷其所對應(yīng)的潛在話題。根據(jù)對話中所抽取的主題,系統(tǒng)自動地從網(wǎng)絡(luò)或者后臺數(shù)據(jù)庫中檢索相應(yīng)的圖片信息。使用基于文本的檢索,我們可以容易地根據(jù)談話主題找到相關(guān)的標(biāo)注圖片。然而,大部分的網(wǎng)絡(luò)圖片都是未標(biāo)注的,我們使用檢索到的已標(biāo)注好的文本相關(guān)聯(lián)的圖片作為訓(xùn)練集,學(xué)習(xí)得到一個主題模型,并且用這個主題模型區(qū)檢索大量的未標(biāo)注圖片。為此,基于主題的圖片檢索需要首先構(gòu)建主題模型,其目標(biāo)是自動地找到一個潛在的(隱含的)語義空間以便更準(zhǔn)確的建模檢索過程中的文檔信息。這里,一個文檔的語義結(jié)構(gòu)包括了一些潛在的隱含概念或者主題(它們往往對應(yīng)詞間的一種穩(wěn)定而特有的共生模式)。通過潛在主題的加權(quán)組合,文檔可以表示為一系列的潛在主題,而其較全組合系數(shù)則可以看做是文檔的一種特征表示。這種表示具有一些系列的優(yōu)點首先語義空間相較于單詞空間而言,維度往往較低。這不僅節(jié)約了存儲空間,也有利于快速搜索;其次通過單詞空間到語義空間的轉(zhuǎn)換,不僅可以減少單詞向量中的噪音,而且也可以解決上述的多義和歧義問題,進(jìn)而提高檢索性能。例如,單詞“蘋果”既可以表示一種水果,又可以表示一個電腦品牌(圖北)。它的準(zhǔn)確意義可以同一主題的其他相關(guān)的關(guān)鍵詞所推得。反饋作為一種流行的人機(jī)交互技術(shù)廣泛應(yīng)用于文本域視覺信息的分析中。通過用戶對系統(tǒng)輸出的反饋評價,系統(tǒng)可以自適應(yīng)地進(jìn)行修正。通過用戶反饋所得到的監(jiān)督信息已經(jīng)在實踐中被證明是有效地。在我們的系統(tǒng)中,用戶可以從自動的主題抽取算法所得到的候選列表中選擇正確的主題。被選主題將用于下一次的主題抽取通過建模時序的(當(dāng)前和下一步的)主題關(guān)系。在圖像檢索中,我們的系統(tǒng)列巨額了一些檢索到的樣本圖片,并且邀請用戶依據(jù)談話主題對相關(guān)圖片進(jìn)行打分。(3).多模態(tài)摘要傳統(tǒng)的及時通信通常保存以文本方式保留聊天記錄。我們的系統(tǒng)中,用戶可以使用圖片、視頻以及文本等多模態(tài)的方式來表達(dá)談話者的意圖。通過一種多模態(tài)的方式而非單一的文本來保存聊天信息,可以得到較之以往更加生動形象記錄。文本,圖片以及視頻的摘要是自然語言處理以及多媒體領(lǐng)域的一個研究熱點。它往往通過一段更為精練簡潔的文本(圖片或者視頻)來概括地表達(dá)原始的文本(圖片或者視頻)信息。目前相關(guān)的技術(shù)大多根據(jù)顯著性特征,重復(fù)的模態(tài)或者關(guān)鍵詞(幀)等信息來構(gòu)建摘要內(nèi)容。在我們的系統(tǒng)中,考慮到除文本外還存在大量的圖片和視頻信息,我們采用了主題驅(qū)動的摘要方法通過分析用戶間的談話內(nèi)容進(jìn)而生成關(guān)于特定話題的摘要信息。 這一摘要信息包含了涉及該話題的相關(guān)文本、圖片以及視頻內(nèi)容。以上所述,僅為本發(fā)明中的具體實施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的權(quán)利要求書的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種基于多模態(tài)輔助的跨語言溝通系統(tǒng),其特征在于,所述系統(tǒng)包括前臺交互模塊、數(shù)據(jù)管理模塊和語義關(guān)聯(lián)模塊,其中前臺交互模塊的輸入端接受用戶輸入的文本聊天內(nèi)容并對用戶聊天的內(nèi)容進(jìn)行預(yù)處理,得到用戶聊天的文本信息,并通過前臺交互模塊的前后臺交互模塊的輸出端傳送處理后的用戶文本聊天內(nèi)容;前臺交互模塊的聊天頁面為用戶顯示聊天雙方的對話的文字內(nèi)容和根據(jù)雙方談話的內(nèi)容系統(tǒng)推薦出來的多媒體圖片;語義關(guān)聯(lián)模塊的輸入端與前臺交互模塊輸出端連接,接收并對用戶的文本聊天內(nèi)容進(jìn)行分析,利用自然語言處理工具提取出雙方談話的主要內(nèi)容,得到并輸出文本信息關(guān)聯(lián)上翻譯的文本和相對應(yīng)的多媒體信息,及根據(jù)文本聊天內(nèi)容、翻譯的內(nèi)容和相應(yīng)的多媒體信息生成一個多模態(tài)摘要;數(shù)據(jù)管理模塊的輸入端與語義關(guān)聯(lián)模塊連接輸出端連接,數(shù)據(jù)管理模塊要對新輸入的文本聊天內(nèi)容、翻譯的內(nèi)容和相應(yīng)的多媒體信息進(jìn)行存儲,同時把歷史的用戶信息連同新的用戶信息進(jìn)行整合,生成并顯示所有的聊天雙方的對話的文字內(nèi)容和根據(jù)雙方談話的內(nèi)容系統(tǒng)推薦出來的多媒體圖片信息。
2.如權(quán)利要求1基于多模態(tài)輔助的跨語言溝通系統(tǒng),其特征在于,當(dāng)后臺的語義關(guān)聯(lián)模塊收到用戶發(fā)送過來的文本信息之后,語義關(guān)聯(lián)模塊為了幫助不同語種的聊天用戶能夠從使用的語言的角度來理解對方的說話的含義,將Google翻譯的結(jié)果集成進(jìn)來;這樣除了原始的用戶聊天信息以外,還附帶上了對這個聊天內(nèi)容的基于Google翻譯的用戶聊天的譯文。
3.如權(quán)利要求1基于多模態(tài)輔助的跨語言溝通系統(tǒng),其特征在于,語義關(guān)聯(lián)模塊提取出雙方談話的主要內(nèi)容是將這些主要內(nèi)容作為關(guān)鍵字,采用基于文本的圖像檢索從圖像數(shù)據(jù)庫中檢索出來相應(yīng)的候選圖片集。
4.一種使用權(quán)利要求1所述基于多模態(tài)輔助的跨語言溝通系統(tǒng)實現(xiàn)跨語言溝通的方法,其特征在于,該方法以用戶對話聊天為基礎(chǔ),根據(jù)文本解析技術(shù)對談話內(nèi)容分析得到的結(jié)果,為用戶提供多媒體元素以輔助語言交流上存在障礙的或者文化背景存在差異的用戶之間的語義理解,所述方法實現(xiàn)包括以下步驟步驟Sl 用戶首先通過語義聊天的前臺界面發(fā)送自己想和對方的聊天的文字內(nèi)容,前臺界面通過Ajax構(gòu)建的前后臺交互模塊向后臺的語義關(guān)聯(lián)模塊傳遞用戶聊天的文本信息,采用基于主題的跨模態(tài)分析方法對用戶談話內(nèi)容進(jìn)行分析,利用自然語言處理工具自動地提取對話中的中心議題及關(guān)鍵字;步驟S2 語義關(guān)聯(lián)模塊根據(jù)對話中的中心議題及關(guān)鍵字信息,采用基于文本的圖像檢索自動地從數(shù)據(jù)庫或者互聯(lián)網(wǎng)根據(jù)談話主題檢索相關(guān)的圖片集和視頻片段并提供給談話雙方;步驟S3 系統(tǒng)根據(jù)談話雙方的文本聊天信息以及與之相對應(yīng)的圖片和視頻片段內(nèi)容, 生成一個多模態(tài)的談話摘要,最終以多媒體的形式來實現(xiàn)不同語種的用戶之間順暢的語義交流;同時,系統(tǒng)根據(jù)談話雙方的文本聊天歷史信息以及與之相對應(yīng)的圖片和視頻內(nèi)容,能為談話雙方生成一個多模態(tài)的談話摘要。
5.如權(quán)利要求4所述的實現(xiàn)跨語言溝通的方法,其特征在于,所述多模態(tài)的談話摘要包含文本、音頻、圖像和視頻信息,為用戶提供多媒體元素以輔助語言交流上存在障礙的或者文化背景存在差異的用戶之間的語義理解。
6.如權(quán)利要求4所述的實現(xiàn)跨語言溝通的方法,其特征在于,所述圖片和視頻片段內(nèi)容是通過搜索從網(wǎng)絡(luò)自動扒取,或從一個預(yù)先已標(biāo)注好的多媒體庫中直接獲取。
7.如權(quán)利要求4所述的實現(xiàn)跨語言溝通的方法,其特征在于,所述多模態(tài)的談話摘要是基于主題的摘要,使用的關(guān)系網(wǎng)絡(luò)并根據(jù)統(tǒng)計上次談話中出現(xiàn)在一個預(yù)定義預(yù)料庫中的詞語共生頻率得到檢測主題。
全文摘要
本發(fā)明提出基于多模態(tài)輔助的實現(xiàn)跨語言溝通系統(tǒng)及方法,所述方法利用實現(xiàn)跨語言溝通系統(tǒng)中的前臺交互模塊、數(shù)據(jù)管理模塊和語義關(guān)聯(lián)模塊,通過分析談話內(nèi)容,利用自然語言處理工具能夠自動地提取對話中的中心議題及關(guān)鍵字,并語義關(guān)聯(lián)模塊根據(jù)檢測到的中心議題與關(guān)鍵字信息,自動地搜索相關(guān)的圖片和視頻片段并以恰當(dāng)?shù)姆绞教峁┙o談話雙方,從而達(dá)到促進(jìn)彼此的了解和溝通。這里,作為輔助理解的圖片和視頻,既可以通過搜索的方法從網(wǎng)絡(luò)自動扒取,也可以從一個預(yù)先已標(biāo)注好的多媒體庫中直接獲取。最后,系統(tǒng)根據(jù)談話雙方的文本聊天信息以及與之相對應(yīng)的圖片和視頻內(nèi)容,生成一個多模態(tài)的談話摘要。
文檔編號G06F17/30GK102262624SQ20111022534
公開日2011年11月30日 申請日期2011年8月8日 優(yōu)先權(quán)日2011年8月8日
發(fā)明者張歆明, 徐常勝, 梁超, 程健 申請人:中國科學(xué)院自動化研究所