專利名稱:由指針發(fā)起的對電子文檔中文本信息的即時雙語注釋的制作方法
技術領域:
本發(fā)明主要涉及機器翻譯技術,更確切地說,本發(fā)明涉及一種雙語注釋校正引擎(LACE),該引擎包括一個系統(tǒng)和方法,當用戶在計算機屏幕上瀏覽電子文檔時,該系統(tǒng)和方法用于自動從本地計算機或者網(wǎng)絡服務器向用戶返回基于人工智能的雙語注釋,該注釋顯示在標注(callout)或標注泡(bubble)內(nèi),用于對與用戶鼠標指針相鄰或被鼠標指針覆蓋的文字段內(nèi)的文本信息進行注釋,其中該文本信息可以是短語、關鍵詞或句子等。
背景技術:
萬維網(wǎng)涉及到所有使用HTTP協(xié)議的互聯(lián)網(wǎng)服務器上的全部文檔,用戶可以通過簡單的指向和點擊(point-and-click)系統(tǒng)訪問這些文檔。因為互聯(lián)網(wǎng)沒有邊界,所以只要設備滿足互聯(lián)網(wǎng)連接的需求,地球上的任何用戶都可以訪問由任何網(wǎng)絡服務器做主機的網(wǎng)站(web site)。
隨著互聯(lián)網(wǎng)在世界范圍內(nèi)的廣泛應用,對于許多可以訪問互聯(lián)網(wǎng)的人來說,WWW已經(jīng)成為他們的主要信息來源。網(wǎng)絡用戶不僅從其母語網(wǎng)站上搜索信息,也從外語網(wǎng)站上搜索信息。為了幫助具有不同語言背景的用戶,很多網(wǎng)站主機提供多語版本的網(wǎng)站。例如,為了吸引西方國家的讀者,很多中國、韓國和日本網(wǎng)站有英語、德語或法語版本。同樣,為了吸引亞洲讀者,一些美國網(wǎng)站也有中文、韓文或日文版本。
事實上,多語網(wǎng)站雖然對具有雙語需求的用戶最為適合,然而,從網(wǎng)站擁有者的角度來看,這在成本上并不劃算。首先,雇用職業(yè)人員將網(wǎng)頁及其更新內(nèi)容翻譯成不同語言非常昂貴。尤其是對于包含成百上千網(wǎng)頁的大網(wǎng)站來說,翻譯工程十分浩大。其次,因為翻譯工作需要時間,多語版本通常不能做到及時更新。第三,網(wǎng)站擁有的版本越多,各個版本之間的一致性越差。有時候,網(wǎng)站的集中性、整體性和一致性是至關重要的。第四,多語網(wǎng)站不僅增加主機的負載,因其需要主機有更大的數(shù)據(jù)庫和更高的處理能力,還增加互聯(lián)網(wǎng)的負載,因其可能產(chǎn)生嚴重擁塞。
因此,需要為用戶提供幫助其閱讀除母語之外的其它語言的網(wǎng)站的工具。
陳寧萍(Chan Ning Ping)等的發(fā)明“用于翻譯查找條件、并對計算機網(wǎng)絡上多語信息進行搜索和提取的方法和系統(tǒng)”在2003年8月5日被授予美國專利權(6,604,101)。該專利公開了一種方法,用于將用戶以源語言(source language)(也稱為用戶語言或主體語言)輸入的查詢條件(query)翻譯成目標語言(target language)(也稱為客體語言),并且搜索和檢索符合條件的目標語言網(wǎng)絡文檔,再將這些網(wǎng)絡文檔翻譯成源語言。根據(jù)該發(fā)明,用戶首先通過諸如鍵盤之類的設備輸入源語言查詢條件。然后,位于后臺(backend)的服務器處理該查詢條件,從輸入的查詢條件中提取實義詞(content word)。下一步,由在服務器上的方言控制器進行操作,對實義詞或者提取出的詞進行方言標準化。在此過程中,可能提示用戶輸入更多信息以進行精確查詢,或者在最初的查詢條件不能滿足方言標準化需要時,也提示用戶輸入更多信息。下一步,進行搜索前的翻譯,由翻譯器將已經(jīng)方言標準化的詞翻譯成目標語言。翻譯過程之后,將翻譯后的詞輸入目標語言的搜索引擎。這樣的輸入會產(chǎn)生與經(jīng)過翻譯的詞相一致的目標語言的搜索結(jié)果,然后以網(wǎng)站名稱(URL)的形式顯示滿足搜索標準的結(jié)果。因此,得到的所有目標語言的結(jié)果顯示在用戶的計算機屏幕上。根據(jù)用戶需求,可以將這些結(jié)果的全部或部分翻譯成源語言。Chan的該專利致力于讓用戶以母語來輸入查詢條件,其中母語稱作源語言,并將目標網(wǎng)站的全部翻譯返回給用戶,從而幫助用戶進行網(wǎng)絡搜索。在很多情況下,對于對目標語言已經(jīng)有一些基礎了解的用戶,無需對整個文檔進行翻譯。相反,對一些關鍵詞、短語或句子進行即時雙語注釋就已經(jīng)足夠滿足用戶的要求。
蘭格(Lange)等的美國專利6,236,958中公開了一種術語提取系統(tǒng),該系統(tǒng)允許自動產(chǎn)生雙語術語。該系統(tǒng)包括至少含有一個源術語序列的源文本,該源文本與至少含有一個目標術語序列的目標文本相對應。術語提取器建立從每個源序列到目標序列的網(wǎng)絡,其中,網(wǎng)絡的每個節(jié)點包括至少一個術語,這樣,每個源術語組合在一個源節(jié)點之內(nèi),每個目標術語組合在每個目標節(jié)點之內(nèi)。術語提取器將每個源節(jié)點和每個目標節(jié)點鏈接起來,并且通過流程最優(yōu)化的方法在該產(chǎn)生的網(wǎng)絡中選擇相關聯(lián)的鏈路。一旦術語提取器在整套對齊的序列上運行,術語統(tǒng)計電路為每對連接的源/目標術語計算一個關聯(lián)分數(shù),最后,評分后的相連的源/目標術語對存儲在雙語數(shù)據(jù)數(shù)據(jù)庫中,該相連的源/目標術語對被認為是相關聯(lián)的雙語數(shù)據(jù)。重復上述整個過程,以增強雙語鏈接的能力。Lange的該專利沒有提供利用統(tǒng)計抽象和模糊邏輯實現(xiàn)的語言校正機制,也沒有提供在與用戶鼠標指針動態(tài)相關的標注內(nèi)顯示雙語注釋的雙語注釋即時顯示機制。
相應地,希望提供一種向計算機用戶自動提供基于人工智能的雙語注釋系統(tǒng)和方法,當用戶閱讀計算機屏幕上的電子文檔時,對與用戶鼠標指針相鄰或被指針覆蓋的文字部分內(nèi)的一條文本信息進行雙語注釋,并在一個與用戶鼠標指針動態(tài)相關的標注內(nèi)顯示該注釋。
進一步,希望提供一種從網(wǎng)絡服務器自動向遠端在線用戶返回基于人工智能的雙語注釋的系統(tǒng)和方法,當用戶瀏覽網(wǎng)絡服務器支持的網(wǎng)站時,對與用戶鼠標指針相鄰或被指針覆蓋的文字部分內(nèi)的一條文本信息進行雙語注釋,并在一個與用戶鼠標指針動態(tài)相關的標注內(nèi)顯示該注釋。
進一步,希望提供一種基于定購(subscription)的系統(tǒng)和方法,自動從第三方中央翻譯服務器向遠端在線用戶返回基于人工智能的雙語注釋,當用戶瀏覽由任意網(wǎng)絡服務器支持的網(wǎng)站時,對與用戶鼠標指針相鄰或被指針覆蓋的文字部分內(nèi)的一條文本信息進行雙語注釋,并在一個與用戶鼠標指針動態(tài)相關的標注內(nèi)顯示該注釋。
發(fā)明內(nèi)容
本發(fā)明由附加的權利要求書及在附圖所示的具體實施例說明,本發(fā)明針對一種向用戶提供由用戶鼠標指針所發(fā)起的雙語注釋的系統(tǒng)和方法。
在本發(fā)明的一個優(yōu)選實施例中,公開了一種向計算機用戶即時提供雙語注釋消息的系統(tǒng)和方法,閱讀計算機屏幕上顯示的電子文檔的用戶,在包含一條文本信息的文字部分上移動鼠標指針,或?qū)⑹髽酥羔樦赶虬鑫谋拘畔⒌奈淖植糠謺r,在與用戶鼠標指針相關的標注中顯示所述文本信息的雙語注釋。該實施例包括一個在用戶計算機上運行的應用程序,該應用程序執(zhí)行如下步驟屏幕抓取與用戶鼠標相鄰或被用戶鼠標覆蓋的一部分第一語言(客體語言)文本;將屏幕抓取的文字部分校正為查詢條件;將查詢條件翻譯為第二語言(主體語言),并且在與用戶鼠標緊密相關的標注或虛擬標注泡中顯示該查詢條件及其翻譯(甚至其它幫助閱讀的信息)。
在本發(fā)明的另一個優(yōu)選實施例中,公開了一種系統(tǒng)和方法,當用戶閱讀顯示在計算機屏幕上的網(wǎng)絡頁面(web page)、在包含文本信息的一部分文字上移動鼠標指針或?qū)⑹髽酥羔樦赶蛩鑫淖植糠謺r,從后臺服務器向網(wǎng)絡用戶即時返回所述文本信息的雙語注釋消息,該雙語注釋消息包含在與用戶鼠標指針相關的標注中。本實施例包括一個在網(wǎng)站的后臺服務器上運行的應用程序,該應用程序執(zhí)行如下步驟屏幕抓取與用戶鼠標相鄰或被用戶鼠標覆蓋的一部分文字,該文字部分包含在一種客體語言的網(wǎng)頁中;發(fā)送屏幕抓取的文字部分至充當該網(wǎng)頁主機的后臺服務器;將屏幕抓取的文字部分校正為查詢條件;
將該條查詢條件翻譯成主體語言;在與用戶鼠標指針密切相關的標注中,向用戶計算機返回顯示查詢條件及其翻譯(甚至其它幫助閱讀的信息)所需的數(shù)據(jù);和根據(jù)服務器發(fā)來的信號顯示標注。
在本發(fā)明再一個實施例中,公開了一種方法和系統(tǒng),當閱讀計算機顯示的網(wǎng)頁和其它電子文檔的用戶在包含一條文本信息的文字部分上移動鼠標指針或?qū)⑹髽酥羔樦赶蛟撐淖植糠謺r,從第三方服務器向網(wǎng)絡用戶即時返回對該條文本信息的雙語注釋消息,該注釋包含在于用戶鼠標指針密切相關的標注中。本實施例包括一個在第三方服務器上運行的應用程序,該應用程序執(zhí)行如下步驟屏幕抓取與用戶鼠標指針相鄰或被用戶鼠標指針覆蓋的一部分文字,該文字部分包含在客體語言的網(wǎng)頁或其它電子文檔中;發(fā)送屏幕抓取的文字部分到提供雙語注釋服務的第三方服務器;將屏幕抓取的文字部分校正為查詢條件;將該查詢條件翻譯成主體語言;在與用戶鼠標指針密切相關的標注中,向用戶計算機返回顯示查詢條件及其翻譯(甚至其它幫助閱讀的信息)所需的數(shù)據(jù);和根據(jù)服務器發(fā)來的信號顯示標注。
上文對本發(fā)明的最為相關和重要的特征進行了概述,下面對本發(fā)明進行詳細說明,以充分了解本發(fā)明對現(xiàn)有技術的貢獻。
為了對本發(fā)明的原理和目的有更明確的認識,下面結(jié)合附圖對本發(fā)明進行詳細說明,在附圖中圖1A是根據(jù)本發(fā)明一優(yōu)選實施例,在計算設備上獨立于任何網(wǎng)絡服務器而運行的多語注釋校正引擎(LACE)的示意方框圖;圖2B是進一步說明圖1的LACE處理過程的流程圖;
圖2A是根據(jù)本發(fā)明另一優(yōu)選實施例,在網(wǎng)站后臺服務器上運行的包括多語注釋校正引擎(LACE)的系統(tǒng)示意框圖;圖2B是說明圖2A的用戶端和后臺服務器端操作步驟的方框圖;圖2C是表示一個用于選擇注釋使用的主體語言的示范性下拉菜單的示意框圖;圖2D是表示多個虛擬按鍵的示意框圖,每個按鍵表示一種主體語言;圖2E是表示一種圓頭矩形注釋標注的示意框圖;圖2F是表示一種云朵形狀注釋標注的示意框圖;圖2G是進一步說明圖2A的本發(fā)明優(yōu)選實施例的示意方框圖;圖3A是根據(jù)本發(fā)明另一優(yōu)選實施例,包含即時多語注釋校正引擎(IM_LACE)的系統(tǒng)示意方框圖,該引擎在中央翻譯服務器上運行,該服務器提供基于定購的IM_LACE服務;和圖3B是圖3A所示優(yōu)選實施例的系統(tǒng)提供集中化的即時多語LACE服務的操作步驟流程圖。
具體實施例方式
參考附圖,結(jié)合最佳方式和優(yōu)選實施例對本發(fā)明進行詳細說明。最常用的形式是,本發(fā)明包括一個計算機可讀的程序存儲介質(zhì),具體表現(xiàn)為計算機可執(zhí)行的命令程序,向用戶提供顯示在與用戶鼠標指針相關的標注內(nèi)的雙語注釋消息。
圖1A是根據(jù)一優(yōu)選實施例的多語注釋校正引擎(LACE)100的示意方框圖。多語LACE 100在計算機平臺110上運行,該計算機平臺110包括一個或多個中央處理單元(CPU)101、一個隨機存儲器(RAM)102、一個輸入/輸出(I/O)接口103、一個操作系統(tǒng)(OS)104和一個可選的微指令代碼(MC)105。多語LACE 100可以是微指令代碼(MC)105或通過操作系統(tǒng)(OS)104執(zhí)行的應用程序的一部分。本領域普通技術人員容易意識到,多語LACE 100可以無需進行實質(zhì)性修改而在其它系統(tǒng)中實現(xiàn)。
在計算機屏幕109上瀏覽第一語言電子文檔的用戶可在任何時間激活多語LACE,此處,第一語言通常指代客體語言。電子文檔可以是任何形式的文檔,諸如Microsoft Word、Microsoft Excel、Microsoft PowerPoint、PDF和JPEG等等。當激活多語LACE時,用戶可在語言設置117中設置注釋所用的第二語言,第二語言通常指代主體語言,語言設置117可以是包含一個下拉列表或多個圖標的圖形用戶界面(GUI)單元,每個圖標表示一種選項。在本申請書的上下文中,“主體語言”指除了目標或客體文檔中使用的語言之外,用戶希望用于對在目標或客體文檔中的信息進行注釋所采用的語言。相應地,“客體語言”指除了主體語言之外,用戶閱讀或瀏覽的文檔中所使用的語言。在圖1A所示的示例中,用戶選擇簡體中文作為主體語言。在標注設置118上,用戶可以設置構(gòu)成和設計顯示雙語注釋所用的標注的參數(shù),標注通常稱為標注泡。這些參數(shù)包括但不局限于風格、形狀、字體風格和大小,以及背景顏色。與語言設置117類似,標注設置118可以包含一個下拉列表或多個圖標的GUI單元,每個圖標表示一種選項。在一種方案中,語言設置117和標注設置118結(jié)合在一個GUI 108中。在另一種方案中,語言設置117和標注設置118以便利的方式與一個顯示的標注相關聯(lián),例如,這些設置一般隱藏不顯示,但是用戶可以通過在標注上點擊鼠標右鍵進行設置。在用戶改變這些設置之前,它們的值是默認值或用戶上次選擇的結(jié)果。
在本發(fā)明中使用的標注或標注泡是一種動態(tài)生成的疊加在計算機屏幕上的可視提示。雖然用戶可以預先設置風格、形狀、字體、大小和背景顏色,顯示的內(nèi)容也可由顯示模塊116根據(jù)校正模塊113和翻譯模塊114的輸出確定。在雙語模式下,由顯示模塊116提供的標注的內(nèi)容也是兩種語言。如果用戶從語言設置117中同時選擇了兩種語言,顯示內(nèi)容將是三種語言。用戶可以同時從語言設置117種選擇多種語言,并得到一個客體語言的查詢條件的多語注釋。雖然標注或標注泡的大小可以固定,優(yōu)選地,標注或標注泡的大小根據(jù)顯示內(nèi)容可調(diào)。此處,“可調(diào)”指標注的大小為彈性的、靈活的、按比例伸縮的、可以自動調(diào)整的,以適應顯示的內(nèi)容。例如,當查詢條件及其翻譯(和/或其它幫助閱讀的信息)非常短,標注或標注泡相對較?。环駝t,標注或標注泡相對較大。
當用戶在計算機屏幕上顯示的電子文檔上移動鼠標指針時,鼠標指針啟動屏幕抓詞功能112。鼠標指針通常稱為指針,指針是一個小位圖,例如,操作系統(tǒng)(OS)104提供的小箭頭,當指示設備移動時,指針也在計算機屏幕上隨之移動,鼠標就是一種典型的指示設備。隨著鼠標指針的移動,它產(chǎn)生運動事件并給用戶反饋。當用戶點擊鼠標按鍵時,它向用戶顯示屏幕上的什么目標被選中,有時鼠標也結(jié)合拉動按鍵的動作向用戶顯示屏幕上的什么目標被選中。在本發(fā)明的優(yōu)選實施例中,鼠標指針如此設置,當它在一行文字上移動或指向一行文字時,自動選擇一段文字。換句話說,用戶無需點擊或拖曳動作即可選擇一段文字。然而,用戶可以在任何時間激活手動選擇。
現(xiàn)在參見圖1A,當用戶向一行包含“由希拉里·羅德海姆·克林頓撰寫的名為活出歷史的書籍”的文字移動鼠標指針111時,多語LACE應用程序從該行進行屏幕抓詞,抓取一部分文字??筛鶕?jù)用戶需求設置屏幕抓取到的部分文本的長度。假設在圖1A的示例中,“活出歷史”被屏幕抓取并輸入校正模塊113。校正模塊113根據(jù)多個預先設定的邏輯、語言規(guī)則和語法規(guī)則,將輸入的文字標準化為一個經(jīng)過校正的查詢條件,例如一個短語、關鍵詞或句子。屏幕抓取的文本長度可調(diào),即屏幕抓取的文本長度是彈性的、靈活的、按比例伸縮和自動調(diào)整的。在這種情況下,將用戶的個人喜好和用于校正的邏輯、語言規(guī)則和語法規(guī)則應用于文本長度設置,因為屏幕抓取的文本已經(jīng)經(jīng)過校正,所以屏幕抓取的文本可以直接作為查詢條件輸入翻譯模塊114。在任一情況下,校正操作基于人工智能(AI),因此,校正后的查詢條件與由人類語言專家做出的選擇非常接近。
翻譯模塊114將校正后的查詢條件作為其輸入,并通過查找多語數(shù)據(jù)庫115對其進行基于AI的翻譯,該多語數(shù)據(jù)庫遵循多個預先設定的邏輯、語言規(guī)則和語法規(guī)則。由于數(shù)據(jù)庫115和翻譯規(guī)則反映了機器翻譯領域的最新發(fā)展,并且可以不斷更新,因此翻譯模塊114作出的翻譯應該非常接近于職業(yè)翻譯人員所作的翻譯。
顯示模塊116是一個多功能單元。它接收用戶在標注設置118上設置的標注設置喜好。它還根據(jù)用戶的喜好和字符串長度來計算雙語注釋標注的大小,該雙語注釋包含校正單元113發(fā)來的經(jīng)過校正的客體語言查詢條件以及翻譯單元114發(fā)來的查詢條件翻譯。顯示模塊116將查詢條件及其翻譯(和/或其它幫助閱讀的信息)“裝入”標注,并根據(jù)鼠標指針的位置限定出標注的位置、大小和其它參數(shù)。然后,顯示模塊116向計算機屏幕發(fā)送數(shù)據(jù)和元數(shù)據(jù),在屏幕上向用戶顯示雙語注釋標注119。
圖1B是進一步說明根據(jù)圖1A的多語LACE的操作過程的方框圖。該過程包括如下步驟步驟121激活LACE(當用戶選擇了一種主體語言時,可自動激活LACE);步驟122根據(jù)用戶的選擇或缺省選項,設置一種注釋文本信息所用的主體語言,該文本信息的語言是客體語言;步驟123當鼠標指針在文字部分的一行文字上移動,或指向該行文字時,屏幕抓取自動選擇的文字部分;步驟124將屏幕抓取的文字校正為適于翻譯的查詢條件;步驟125將查詢條件翻譯為主體語言;步驟126生成一個與查詢條件及其翻譯(和/或其它幫助閱讀的信息)的大小相匹配的標注,并將查詢條件及其翻譯(和/或其它幫助閱讀的信息)裝入標注;和步驟127在由多個參數(shù)確定的位置顯示標注,這些參數(shù)諸如為鼠標指針位置、標注大小、雙語注釋(即查詢條件及其翻譯,和/或其它幫助閱讀的信息)所用的字符串長度和用戶預先設置的個人喜好或缺省喜好。
用戶可以在任何時間執(zhí)行步驟128。
優(yōu)選地,上文參考圖1A和圖1B所說明的多語LACE可以作為公開發(fā)布的軟件程序。優(yōu)選地,該多語LACE能夠?qū)θ魏物@示在用戶屏幕上的電子文檔進行屏幕抓詞。例如,用戶可以對WORD文檔、PDF文檔或互聯(lián)網(wǎng)上的HTML文檔應用多語LACE。
多語LACE也可以結(jié)合在任何諸如WORD或EXCEL等任意文檔生成軟件中。在這種情況下,用戶可從主程序的常規(guī)菜單上方便地激活或去激活注釋功能。
將多LACE程序的簡化版本嵌入諸如PDA、蜂窩電話或雙路傳呼機等重量輕的設備中也是非常有用的。
在另一優(yōu)選實施例中,本發(fā)明提供了一種用于向遠端在線用戶動態(tài)返回對網(wǎng)站上的文本信息進行雙語注釋的系統(tǒng)和方法,該雙語注釋顯示在與鼠標指針相關聯(lián)的標注中。如圖2A所示,該系統(tǒng)包括一個網(wǎng)絡服務器210,其支持在互聯(lián)網(wǎng)212上的網(wǎng)站211。遠端用戶213通過其計算機中的瀏覽器登錄互聯(lián)網(wǎng)212,并訪問諸如網(wǎng)站211的網(wǎng)站。網(wǎng)站的語言是客體語言,例如可為英語??蓮木W(wǎng)站上激活多語LACE 214,但是在網(wǎng)站服務器210上運行多語LACE 214。一旦激活了多語LACE 214,用戶可通過在其希望理解的文本上移動鼠標指針,或?qū)⑹髽酥羔樦赶蛟撐谋?,獲得網(wǎng)站文本信息的雙語注釋。例如,當用戶在“Products(產(chǎn)品)”上移動指針時,屏幕上彈出一個標注215。標注與指針相關聯(lián),這樣,在標注和目標文本之間建立一個可視參照。例如,圖1中的注釋標注215的尾部指向文字“產(chǎn)品”。
圖2B是說明用戶端和服務器端操作步驟的方框圖。通過輸入一個URL或點擊一個超鏈接,用戶訪問由網(wǎng)絡服務器做主機的網(wǎng)站(步驟221)。網(wǎng)站的語言是客體語言,例如可為英語。當用戶希望得到對網(wǎng)站上一些詞、短語或句子的雙語注釋時,需要激活多語LACE(步驟222),并從列表中選擇一種主體語言(步驟223),例如可為中文。一旦選定了主體語言,屏幕抓詞工具與用戶的鼠標指針相關聯(lián)。作為多語LACE應用程序一部分的屏幕抓詞器遵循多個預先設定的由算法表示的規(guī)則,抓取落入靠近指針的空間區(qū)域內(nèi)的一部分文本,并將抓取的文本通過HTTP發(fā)回網(wǎng)絡服務器(步驟224)。一旦將抓取的文本標準化為一個查詢條件,服務器端的多語LACE通過查找強大的多語數(shù)據(jù)庫翻譯該查詢條件(步驟226)。然后,網(wǎng)絡服務器向用戶計算機返回所請求的雙語注釋,包括查詢條件及其翻譯(和/或其它幫助閱讀的信息),以及限定出用于注釋的標注所需的元數(shù)據(jù)(步驟227)。用戶的計算機根據(jù)服務器發(fā)來的信號在屏幕上顯示返回的數(shù)據(jù)(步驟228)。
根據(jù)圖2A和2B所示實施例的多語LACE是一個交叉平臺應用程序,主要在后臺服務器上運行。應用程序包括一個以圖形用戶界面方式實現(xiàn)的激活工具,該圖形用戶界面嵌入網(wǎng)站的每個頁面中。當用戶訪問網(wǎng)站時,能夠在任意頁面上激活或去激活該多語LACE。在一種實施方案中,用戶通過點擊一個激活按鍵來激活或去激活該應用程序。在另一種方案中,用戶通過從下拉菜單中進行選擇來激活或去激活該應用程序。然而,在再一種方案中,當用戶離開網(wǎng)站時,應用程序自動去激活。無論如何,只要用戶認為方便,可以結(jié)合使用這些激活和去激活的方法。
該應用程序還包括一個用于從選項列表中選擇一種或多種主體語言的選擇工具。與激活工具相同,選擇工具可以是一個下拉菜單、多個圖標按鍵(每個按鍵代表一種語言)或任何其它結(jié)合在圖形用戶界面或網(wǎng)頁內(nèi)的單元。
無論如何,也可以結(jié)合使用上文說明的激活工具和選擇工具。例如,當用戶從選項列表中選擇一種語言,自動激活多語LACE。為了去激活該應用程序,用戶可以從列表中選擇“去激活LACE”,或通過點擊圖標來選擇“去激活LACE”。
圖2C是選擇一種或多種在注釋中使用的主體語言的下拉菜單的示范性示意框圖。圖2D是說明多個虛擬按鍵的示意框圖,每個按鍵代表一種主體語言。舉例來說,假設原始網(wǎng)站語言即客體語言是英語,用戶選定的主體語言是中文,那么,當用戶在網(wǎng)站的一個短語或句子上移動鼠標指針,或?qū)⒅羔樦赶蛟摱陶Z或句子時,馬上出現(xiàn)與指針相關聯(lián)的標注或者“標注泡”。該標注或者“標注泡”包含英語的短語或句子及其中文翻譯。
標注或“標注泡”可以設置為任意形狀、顏色、背景和大小。此外,用戶可以設置標注或“標注泡”內(nèi)文字的字體和大小,其實現(xiàn)與多數(shù)文字處理軟件和消息軟件中的設置類似。圖2E示出了一種圓頭矩形注釋標注,其中使用的字體是“Time New Roman”。圖2F示出了一種云朵形狀的注釋標注,其中使用的字體是“Courier New”。
標注和“標注泡”之間的不同之處在于前者具有一個主體和一個尾部,但是后者只有一個主體。尾部的用處在于它可作為注釋標注和需要注釋的文本信息之間的引用橋梁。雖然在本發(fā)明中,優(yōu)選地,在多個實施例中使用標注,但是,使用其它諸如正方形、矩形、圓形、標注泡、“風箏”或“光環(huán)”形狀的可視提示框來顯示返回的注釋消息也不偏離本發(fā)明的主旨和范圍。
舉例來說,標注可設置為固定大小。在此情況下,在標注中僅顯示有限的字符。當指針移動時,標注就像一個移動窗口,僅顯示與指針在空間上最近的單詞的雙語注釋。離指針較遠的單詞的注釋自動從標注中消失。
再舉一個例子,用戶可以設置一個逐句翻譯機制。在此情況下,當指針在一句話上移動時,句子的翻譯顯示在標注泡中。因為句子的長短不一,所以靈活變換大小的標注泡最為適合。
多語LACE應用程序遵循多個預先設定的規(guī)則從屏幕上抓詞,例如,只抓取一行中與指針最近的文字;抓取在指針左方(或右方)一英寸之內(nèi)的一部分文字;抓取在左方(或右方)距指針一英寸位置的一部分文字;或者抓取整個文本,等等。
現(xiàn)在參見圖2G,圖2G是進一步說明圖1A中本發(fā)明一優(yōu)選實施例的示意方框圖。當用戶將鼠標指針241指向屏幕文字“Port of Oakland”時,作為多語LACE應用程序一部分的屏幕抓詞器242執(zhí)行抓詞操作。通過HTTP將屏幕抓取的文字部分送到服務器240中,服務器240包括校正模塊243、與多語數(shù)據(jù)庫245連接的翻譯模塊244和標注生成模塊246。校正模塊243執(zhí)行多個邏輯、語言和語法操作,以將屏幕抓取的該部分文字校正為標準化的查詢條件。翻譯模塊244通過查找強大的多語數(shù)據(jù)庫245并執(zhí)行相關的語言和語法計算將該查詢條件翻譯成主體語言,該主體語言是用戶從網(wǎng)站250提供的語言選擇界面247中選擇的。標注生成模塊246根據(jù)用戶的個人喜好和相關計算,確定出顯示注釋的標注的大小、風格、形狀、字體和字號,其中注釋包括客體語言的查詢條件及其一種或多種主體語言的翻譯。優(yōu)選地,需要以雙語表達的注釋。用戶可在網(wǎng)站250提供的標注設置界面248上設置標注249的風格、字體和背景顏色等。
校正模塊243可如下操作方言單詞查找、自發(fā)創(chuàng)新的收集(collectionof spontaneous innovation)、詞匯擴散(lexical diffusion)、統(tǒng)計抽象和模糊邏輯、分析、復雜句子分解等。校正模塊243使用的邏輯、語言和語法規(guī)則包括但不局限于以下幾種通過提取屏幕抓取的文本中任何兩個相鄰句號(“.”)之間的文字、或一個句號(“.”)與一個驚嘆號(“!”)之間的文字、或一個句號(“.”)和一個問號(“?”)之間的文字來識別一整句;如果沒有識別出一整句,通過忽略代詞或系動詞等以識別出關鍵短語。
標注生成模塊246不僅決定標注249的大小,還決定標注相對于鼠標指針241的位置。如圖2H所示,當鼠標指針非常接近頁面右邊緣時,標注位于指針左側(cè),以便將標注保持在頁面中。同樣地,當鼠標指針非常接近頁面左邊緣時,鼠標指針位于鼠標指針的右側(cè);當鼠標指針非常接近于頁面的上邊緣時,標注不高于鼠標指針;當指針非常接近頁面下邊緣時,標注不低于鼠標指針。
需要注意,翻譯模塊244根據(jù)一套預先為所選語言特別設定的邏輯、語言規(guī)則和語法規(guī)則進行翻譯。規(guī)則越復雜,翻譯越精確。此外,翻譯模塊244基于人工智能(AI)。例如,它具有配價特征(valence features)、搭配概率、統(tǒng)計抽象和模糊邏輯的功能。
優(yōu)選地,上文參考圖2A至2H說明的多語LACE可作為一個特別為由網(wǎng)站服務器上做主機的網(wǎng)站所提供的應用程序。優(yōu)選地,多語LACE設置為僅在該網(wǎng)站上具有屏幕抓取信息的功能。換句話說,用戶不能從一個網(wǎng)站上激活多語LACE而將其應用于非該網(wǎng)站提供的其它文檔。否則,該系統(tǒng)將成為一個免費載體。
在如圖3A所示的本發(fā)明另一優(yōu)選實施例中,由中央翻譯服務器310通過即時消息(IM)架構(gòu)提供即時多語LACE服務,該服務稱為IM_LACE,IM_LACE既可以獨立于IM系統(tǒng),也可以結(jié)合在一個現(xiàn)有的諸如NetMeeting、MSN消息器、Yahoo!消息器和AIM的IM系統(tǒng)中。用戶和中央翻譯服務器310之間的數(shù)據(jù)交換受諸如SOAP/XML/HTTP等網(wǎng)絡服務接口和相關協(xié)議的支持。
優(yōu)選地,IM_LACE是基于定購的服務。一個獨立的用戶,例如用戶312或用戶317通過注冊和下載IM_LACE客戶端應用程序定購該服務。當下載了客戶端應用程序后,用戶可以登錄服務器并在線將該應用程序應用于任何電子文檔??梢詫⒖蛻舳藨贸绦蛟O置為執(zhí)行校正和生成標注的任務,但是,它卻將依賴于大型數(shù)據(jù)庫的翻譯任務交給中央服務器310。在圖3A中,用戶316正在IM論壇(session)317使用IM_LACE服務。同樣,IM論壇315中的用戶312正在使用IM_LACE服務來瀏覽網(wǎng)站,該網(wǎng)站由互聯(lián)網(wǎng)318上的qN網(wǎng)站服務器311支持。
圖3B是說明根據(jù)圖3A的實施例的處理過程的方框圖。該處理過程包括如下步驟步驟321登錄(激活)IM_LACE系統(tǒng);步驟322屏幕抓取一部分與用戶鼠標指針相鄰或被用戶鼠標指針覆蓋的文字,該文字部分包含在網(wǎng)頁或其它電子文檔中,其語言是客體語言;
步驟323將屏幕抓取的文字校正為查詢條件;步驟324發(fā)送該查詢條件至中央翻譯服務器;步驟325向用戶本地計算機的IM_LACE客戶端應用程序返回翻譯;和步驟326在一個與用戶鼠標指針密切相關的標注中顯示查詢條件及其翻譯(和/或其它幫助閱讀的信息)。
上文所述的本發(fā)明的優(yōu)點很多。首先,通過使用一個基于AI的模塊校正屏幕抓取的文字,可得到與文字內(nèi)容更相關的注釋,該基于AI的模塊的一個示例是圖2G的校正模塊243。
其次,翻譯模塊也是基于AI的。通過采用高度復雜的AI翻譯技術,翻譯模塊的翻譯和人類專家的翻譯非常接近。
第三,因為顯示的標注或標注泡與用戶鼠標指針相關聯(lián),并且顯示的雙語注釋針對與鼠標指針在空間上相鄰的文本信息,所以注釋是動態(tài)的。
第四,因為用戶可以方便地設置標注或標注泡的風格、字體和背景顏色,所以系統(tǒng)是用戶友好的。
第五,LACE向外國人提供即時、自動彈出、參照了上下文的關鍵信息的翻譯,而無需花費大量資金創(chuàng)建一個外語站點,所以,LACE是有助于維護原始站點的整體性和中心性的一流設備。外國人只要選擇其希望激活的主體語言即可訪問該站點。
雖然在此說明書中參考優(yōu)選實施例對本發(fā)明進行了說明,本領域普通技術人員仍容易理解,可以采用其它應用來替代本文提出的應用,而不偏離本發(fā)明的精神和范圍。
相應地,本發(fā)明僅受權利要求書的限制。
權利要求
1.一種向用戶提供對用戶屏幕上顯示的電子文檔中的第一語言文本信息進行雙語注釋的系統(tǒng),該系統(tǒng)包括處理器,該處理器用于屏幕抓取與用戶指針相鄰或被用戶指針覆蓋的一部分文字;根據(jù)一個或多個邏輯、語言規(guī)則和/或語法規(guī)則,將所述屏幕抓取的部分文字校正為查詢條件;通過查找數(shù)據(jù)庫并應用一套邏輯、語言規(guī)則和語法規(guī)則,將所述查詢條件翻譯為第二語言,和在用戶屏幕上顯示可視提示,所述可視提示包括所述查詢條件、所述查詢條件的翻譯和/或其它幫助閱讀的信息。
2.根據(jù)權利要求1所述的系統(tǒng),其中,所述部分文字的長度固定。
3.根據(jù)權利要求1所述的系統(tǒng),其中,所述部分文字的長度可根據(jù)一個或多個邏輯、語言規(guī)則和/或語法規(guī)則自動調(diào)整。
4.根據(jù)權利要求1所述的系統(tǒng),其中,所述可視提示與用戶指針動態(tài)相關。
5.根據(jù)權利要求4所述的系統(tǒng),其中,所述可視提示包括與用戶指針大致重疊的尾部。
6.根據(jù)權利要求1所述的系統(tǒng),其中,所述可視提示的大小固定。
7.根據(jù)權利要求1所述的系統(tǒng),其中,所述可視提示根據(jù)其中的內(nèi)容而改變大小。
8.一種計算機包含計算機可讀格式的指令的可用介質(zhì),該指令用于執(zhí)行向用戶提供雙語注釋的過程,該雙語注釋是對顯示在用戶屏幕上的電子文檔中包含的第一語言文本信息進行的雙語注釋,該過程包括如下步驟屏幕抓取與用戶指針相鄰或被用戶指針覆蓋的一部分文字;將所述屏幕抓取的文字部分校正為查詢條件;將所述查詢條件翻譯為第二語言,和在用戶屏幕上顯示標注,所述標注包括所述查詢條件、所述查詢條件的翻譯和/或其它幫助閱讀的信息。
9.根據(jù)權利要求8所述的計算機可用介質(zhì),其中,所述文字部分的長度固定。
10.根據(jù)權利要求8所述的計算機可用介質(zhì),其中,所述文字部分的長度可根據(jù)一個或多個邏輯、語言規(guī)則和/或語法規(guī)則自動調(diào)整。
11.根據(jù)權利要求8所述的計算機可用介質(zhì),其中,所述標注與用戶指針動態(tài)相關。
12.根據(jù)權利要求11所述的計算機可用介質(zhì),其中,所述標注的尾部與用戶指針大致重疊。
13.根據(jù)權利要求8所述的計算機可用介質(zhì),其中,所述標注的大小固定。
14.根據(jù)權利要求8所述的計算機可用介質(zhì),其中,所述標注根據(jù)其中內(nèi)容而改變大小。
15.一種向用戶提供雙語注釋的方法,該雙語注釋是對顯示在用戶屏幕上的電子文檔中的第一語言文本信息進行的雙語注釋,該方法包括步驟屏幕抓取與用戶指針相鄰或被用戶指針覆蓋的一部分文字;根據(jù)一個或多個規(guī)則,將所述屏幕抓取的文字部分校正為查詢條件;通過查找數(shù)據(jù)庫并應用一套邏輯、語言規(guī)則和語法規(guī)則,將所述查詢條件翻譯為第二語言,和在用戶屏幕上顯示注釋標注,所述注釋標注包含所述查詢條件、所述查詢條件的翻譯和/或其它幫助閱讀的信息。
16.根據(jù)權利要求15所述的方法,其中,所述文字部分的長度固定。
17.根據(jù)權利要求15所述的方法,其中,所述文字部分的長度可根據(jù)一個或多個邏輯、語言規(guī)則和/或語法規(guī)則自動調(diào)整。
18.根據(jù)權利要求15所述的方法,其中,所述標注與用戶指針動態(tài)相關。
19.根據(jù)權利要求18所述的方法,其中,所述標注的尾部與用戶指針大致重疊。
20.根據(jù)權利要求15所述的方法,其中,所述標注的大小固定。
21.根據(jù)權利要求15所述的方法,其中,所述標注根據(jù)其中內(nèi)容而改變大小。
22.一種用于從網(wǎng)絡服務器向遠端用戶返回雙語注釋的系統(tǒng),該雙語注釋是對網(wǎng)絡服務器支持的網(wǎng)站中的第一語言文本信息進行的雙語注釋,所述系統(tǒng)包含應用程序,該應用程序執(zhí)行如下操作屏幕抓取與用戶指針相鄰或被用戶指針覆蓋的一部分文字;將所述屏幕抓取的文字部分校正為查詢條件;將所述查詢條件翻譯為第二語言,和發(fā)送一個信號,以在用戶屏幕上的可視提示中顯示所述查詢條件、所述查詢條件的翻譯和/或其它幫助閱讀的信息。
23.根據(jù)權利要求22所述的系統(tǒng),其中,所述應用程序包含嵌入所述網(wǎng)站的每個頁面中的圖形用戶界面,所述圖形用戶界面包括激活或去激活所述應用程序的工具;和用于從語言列表中選擇所述第二語言的工具。
24.根據(jù)權利要求23所述的系統(tǒng),其中,當選定所述第二語言時,所述應用程序自動激活。
25.根據(jù)權利要求22所述的系統(tǒng),其中,所述文字部分的長度固定。
26.根據(jù)權利要求22所述的系統(tǒng),其中,所述文字部分的長度根據(jù)一個或多個邏輯、語言規(guī)則和/或語法規(guī)則自動調(diào)整。
27.根據(jù)權利要求22所述的系統(tǒng),其中,所述可視提示的位置與用戶指針動態(tài)相關。
28.根據(jù)權利要求27所述的系統(tǒng),其中,所述可視提示包括與用戶指針大致重疊的尾部。
29.根據(jù)權利要求28所述的系統(tǒng),其中,所述可視提示的大小固定。
30.根據(jù)權利要求22所述的系統(tǒng),其中,所述可視提示根據(jù)其中的內(nèi)容而改變大小。
31.根據(jù)權利要求23所述的系統(tǒng),其中,所述圖形用戶界面進一步包括用于設置所述可視提示的參數(shù)的工具;
32.一種用于從網(wǎng)絡服務器向遠端用戶返回雙語注釋的方法,該雙語注釋是對網(wǎng)絡服務器支持的網(wǎng)站中的第一語言文本信息進行的雙語注釋,該方法包括如下步驟屏幕抓取與用戶指針相鄰或被用戶指針覆蓋的一部分文字;發(fā)送所述屏幕抓取的文字部分至網(wǎng)絡服務器;根據(jù)一個或多個規(guī)則將所述屏幕抓取的文字部分校正為查詢條件;通過查找數(shù)據(jù)庫和應用一套邏輯、語言和語法規(guī)則,將所述查詢條件翻譯為第二語言,和向用戶計算機返回所述查詢條件及其翻譯;和發(fā)送一個信號,以在用戶屏幕上的標注中顯示包含所述查詢條件、所述查詢條件的翻譯和/或其它幫助閱讀的信息。
33.根據(jù)權利要求32所述的方法,其中,所述應用程序包括嵌入所述網(wǎng)站的每個頁面中的圖形用戶界面,所述圖形用戶界面包括激活或去激活所述應用程序的工具;和用于從語言列表中選擇所述第二語言的工具。
34.根據(jù)權利要求33所述的方法,其中,當選定所述第二語言時,所述應用程序自動激活。
35.根據(jù)權利要求32所述的方法,其中,所述文字部分的長度固定。
36.根據(jù)權利要求32所述的方法,其中,所述文字部分的長度根據(jù)一個或多個邏輯、語言規(guī)則和/或語法規(guī)則自動調(diào)整。
37.根據(jù)權利要求32所述的方法,其中,所述標注的位置與用戶指針動態(tài)相關。
38.根據(jù)權利要求37所述的方法,其中,所述標注的尾部與用戶指針大致重疊。
39.根據(jù)權利要求32所述的方法,其中,所述標注的大小固定。
40.根據(jù)權利要求32所述的方法,其中,所述標注根據(jù)其中的內(nèi)容而改變大小。
41.根據(jù)權利要求32所述的方法,其中,所述圖形用戶界面進一步包括用于設置所述標注參數(shù)的工具。
42.一種從服務器向用戶提供全球網(wǎng)上實時多語注釋服務的系統(tǒng),所述系統(tǒng)包括(a)、在用戶計算機上運行的客戶端應用程序,所述客戶端應用程序執(zhí)行如下操作屏幕抓取一部分第一語言文本,所述文字部分與用戶指針相鄰或被用戶指針覆蓋;將所述屏幕抓取的文字部分校正為查詢條件;發(fā)送所述查詢條件至服務器;和顯示注釋標注,標注中包含從服務器返回的所述查詢條件及其翻譯;和(b)、在服務器上運行的服務器應用程序,所述服務器應用程序執(zhí)行如下操作通過查找數(shù)據(jù)庫和應用一套邏輯、語言和語法規(guī)則,將所述查詢條件翻譯為第二語言,和向客戶端應用程序返回所述查詢條件的翻譯。
43.根據(jù)權利要求42所述的系統(tǒng),其中,所述文字部分的長度固定。
44.根據(jù)權利要求42所述的系統(tǒng),其中,所述文字部分根據(jù)一個或多個邏輯、語言規(guī)則和語法規(guī)則自動調(diào)整。
45.根據(jù)權利要求42所述的系統(tǒng),其中,所述標注與用戶指針動態(tài)相關。
46.根據(jù)權利要求45所述的系統(tǒng),其中,所述標注的尾部與用戶指針大致重疊。
47.根據(jù)權利要求42所述的系統(tǒng),其中,所述標注的大小固定。
48.根據(jù)權利要求42所述的系統(tǒng),其中,所述標注根據(jù)其中的內(nèi)容而改變大小。
49.一種從服務器向用戶提供全球網(wǎng)上實時多語注釋服務的方法,所述方法包括屏幕抓取一部分第一語言文字,所述文字部分與用戶指針相鄰或被用戶指針覆蓋;將所述屏幕抓取的文字部分校正為查詢條件;發(fā)送所述查詢條件至服務器;通過查找數(shù)據(jù)庫和應用一套邏輯、語言規(guī)則和語法規(guī)則,將所述服務器中的查詢條件翻譯為第二語言,向用戶計算機返回所述查詢條件的翻譯;和顯示注釋標注,該標注包含從服務器返回的所述查詢條件、所述查詢條件的翻譯和/或其它幫助閱讀的信息。
50.根據(jù)權利要求49所述的方法,其中,所述文字部分的長度固定。
51.根據(jù)權利要求49所述的方法,其中,所述文字部分的長度根據(jù)一個或多個邏輯、語言規(guī)則和/或語法規(guī)則自動調(diào)整。
52.根據(jù)權利要求49所述的方法,其中,所述標注與用戶指針動態(tài)相關。
53.根據(jù)權利要求52所述的方法,其中,所述標注的尾部與用戶指針大致重疊。
54.根據(jù)權利要求49所述的方法,其中,所述標注的大小固定。
55.根據(jù)權利要求49所述的方法,其中,所述標注根據(jù)其中的內(nèi)容而改變大小。
56.一種對包含在服務器電子文檔中的第一語言文本信息提供注釋的系統(tǒng),該服務器通過網(wǎng)絡與客戶端通訊連接,該系統(tǒng)包含執(zhí)行如下操作的處理器接收客戶端發(fā)來的識別所述文本信息的數(shù)據(jù);根據(jù)一個或多個邏輯、語言規(guī)則和語法規(guī)則,將所述識別出的文本信息校正為查詢條件;通過查詢數(shù)據(jù)庫和應用一套邏輯、語言規(guī)則和語法規(guī)則,將所述查詢條件翻譯成第二語言;和將所述查詢條件的翻譯發(fā)送至客戶端。
57.一種包含計算機可讀格式指令的計算機可用介質(zhì),用于實施向用戶提供雙語注釋的處理過程,該雙語注釋是對用戶屏幕上顯示的電子文檔中的第一語言文本信息進行的雙語注釋,所述處理過程包括接收識別所述文本信息的數(shù)據(jù);將所述查詢條件校正為查詢條件;將所述查詢條件翻譯成第二語言;和將翻譯后的查詢條件發(fā)送至用戶。
58.一種向用戶提供雙語注釋的方法,該雙語注釋是對用戶屏幕上的電子文檔中的第一語言文本信息進行的雙語注釋,所述方法包括接收識別所述文本信息的數(shù)據(jù);將所述文本信息校正為查詢條件;將所述查詢條件翻譯成第二語言;和將所述翻譯后的查詢條件發(fā)送至用戶。
全文摘要
本發(fā)明提供了一種系統(tǒng)和方法,當用戶閱讀計算機屏幕上的電子文檔時,該系統(tǒng)和方法向用戶提供基于人工智能的雙語注釋,該注釋顯示在與用戶鼠標指針相關的標注中,用于對包含在與用戶鼠標指針相鄰或被用戶鼠標指針覆蓋的文字部分中的文本信息進行注釋。
文檔編號G06F17/28GK1685313SQ03823419
公開日2005年10月19日 申請日期2003年9月27日 優(yōu)先權日2002年9月30日
發(fā)明者陳寧萍 申請人:陳寧萍