用于從對話中提取信息的設備發(fā)明人:AlexanderWaibel優(yōu)先權聲明本申請要求以下申請的權益:(1)于2013年2月6日提交的題為“DEVICEFOREXTRACTINGINFORMATIONFROMADIALOG(用于從對話提取信息的設備)”的美國專利申請序列號13/760,535;以及(2)于2012年3月8日提交的題為“SPEECHTRANSLATIONDEVICEWITHINFORMATIONEXTRACTION(具有信息提取的語音翻譯設備)”的美國臨時專利申請序列號61/608,334的權益,通過引用將其全部內容結合在此。
背景技術:語言交流與翻譯設備用作跨過(bridge,橋接)不懂彼此語言的兩個(或者更多個)人之間的溝通障礙的目的。這涉及其中從下列項的組合來構造的在至少一種語音方向上的至少一個語音翻譯系統(tǒng)的布置:(1)語音識別引擎(engine),(2)機器翻譯引擎,以及(3)輸出生成界面,輸出生成界面以其他語言形式將輸出呈現(xiàn)給收聽者(可通過合成語音、鏈接客戶端上的輸出文本、抬頭顯示器、投影儀、專用音頻揚聲器等來呈現(xiàn)該輸出)。這種系統(tǒng)的目的是提供人與人通信,即,將由一個講話者所表達的理念信息以另一種語言傳輸給收聽者。公開語音翻譯系統(tǒng)的現(xiàn)有專利參考包括:美國專利5,712,957、美國專利6,324,510、美國專利6,963,837、美國專利8,090,570、美國專利8,204,739、美國公開號2007/0271088、美國公開號2008/0120091以及美國公開號2011/0307241,通過引用將其全部內容結合在此??商娲兀呀浱岢隽酥T如用于數(shù)據(jù)錄入的聽寫系統(tǒng)或者人機對話系統(tǒng)的用于記錄保持的系統(tǒng)。然而,人-人對話通常已經包含以后用于記錄保持或者數(shù)據(jù)錄入可能需要的信息。
技術實現(xiàn)要素:存在其中在各種信息處理任務中進一步使用和處理在對話過程中傳輸?shù)男畔⒌脑S多情形。目前,通常,必須將這種信息輸入、添加或者重新輸入到人機界面的不同系統(tǒng)中,并且由此是不經濟的和耗時的。然而,還可利用直接面向“收聽”人-人會話的人機界面的識別對話信息。因此,本申請中提出的是一種集成的、組合的設計,其中,隱含地(implicitly)從人-人對話中提取信息。還可使用如在用于語言解釋的目的的語音翻譯器中所使用的人-人對話處理技術來幫助從跨語種和單語種對話中提取信息。本申請描述了在會話過程中可使用從兩個(或者更多個)對話方的語音收集的信息來完善記錄或者直接觸發(fā)輔助服務的技術,從而節(jié)省時間并且避免不必要的干擾。因此,在一個一般性方面中,本申請公開了一種變成語音翻譯設備的部件并且將其功能擴展至隱含地或者明確地通知和指導各種輔助性機器服務但作為人與人交流的附帶結果(sideeffect,意外結果)的裝置。這樣做,節(jié)省了時間并且使信息收集更為有效和高效。例如,在醫(yī)療任務中使用的語音翻譯設備中,兩個講話者(醫(yī)生和患者)可能正在討論患者正在經歷的疾病。在該對話過程中,醫(yī)生可能詢問問題,諸如:“你發(fā)燒嗎”、“你頭痛嗎”、或者“你有過敏史嗎”,這都屬于診斷的一部分。并非將這些響應填入患者報告或者診斷中,也并非記下所得出的治療,而是在人與人對話過程中,本發(fā)明的實施方式可用于自動生成這些報告。本發(fā)明的實施方式可通過將作為人-人對話的附帶結果的信息提取到記錄中來簡化和統(tǒng)一工作流程,以提高知識型工作者的努力成果,或者允許將來自人-人對話的這種信息快速和有效地多模式(multimodal)傳輸?shù)接涗浿?,?或在人-人交互過程中允許無縫地(seamlessly)補充對記錄中的這種信息的校正的數(shù)據(jù)條目。此外,該技術可基于人-人交互記錄應用為后期編輯步驟。這種組合的人-人以及人機對話的一個重要方面是對錯誤的處理。并非所有的信息被正確地識別和翻譯,或者隨后被正確的提取和填入(fill,填寫)到所期望的記錄中。在這種情況下,人為干預是必需的以驗證和校正所產生的記錄。在某些實施方式中,可采用各種多模式錯誤修正技術來校正記錄。在另一個一般性方面中,本發(fā)明涉及用于解除在說第一語言的第一講話者與說第二語言的第二講話者之間的人與人對話的語音翻譯過程中出現(xiàn)的歧義的系統(tǒng)和方法。當歧義被檢測為語音識別或者翻譯過程的一部分時,向參與者(例如,講話者)發(fā)起消歧詢問(query)。對消歧詢問進行解析(parse,分析),從而響應解除歧義并且允許語音翻譯過程以更高的置信度繼續(xù)進行。觸摸屏顯示器可被用于發(fā)起消歧詢問和接收講話者的響應。附圖說明在本文中,通過結合下列附圖的實施方式的方式來描述本發(fā)明的各種實施方式,其中:圖1-圖5以及圖7是根據(jù)本發(fā)明的各種實施方式的語音翻譯設備的示圖;以及圖6是根據(jù)本發(fā)明的各種實施方式的過程流信息提取模塊的示圖;圖8是根據(jù)本發(fā)明的各種實施方式的交互式消歧模塊的過程流的流程圖;圖9是根據(jù)本發(fā)明的各種實施方式的用于從人-人對話(雙語、多語或單語)中提取、完善和校正信息的交互式用戶界面的示圖;以及圖10是根據(jù)本發(fā)明的各種實施方式的語音翻譯設備的框圖。具體實施方式圖1是根據(jù)本發(fā)明的各種實施方式的具有信息提取的語音翻譯設備12的示圖。語音翻譯設備12可以連續(xù)的和同步的翻譯模式來操作,例如,連續(xù)地或者同時翻譯來自兩個(或者更多個)講話者的每一個的語音。在圖1中,示出了講兩種語言的兩個講話者(即,雙向系統(tǒng)),盡管該設備可被擴展成處理多個講話者(例如,多個(3個或者更多個)講話者系統(tǒng))。在圖1的實施方式中,來自講語言1的講話者1的輸入語音(或者言語(utterance,發(fā)聲))被輸入到用于語言1的自動語音識別引擎(ASR1)。例如,ASR1使用傳統(tǒng)的自動語音識別技術將為語言1的輸入語音轉換成為語言1的文本。從ASR1輸出的文本被輸入到將為語言1的文本翻譯成語言2的機器翻譯引擎(MT1)。然后,來自MT1的所翻譯的為語言2的講話輸出在文本顯示器14(例如,計算機監(jiān)視器、智能手機或其他便攜式計算機上的顯示器等)上和/或通過使用用于語言2的文本至語音合成器(TTS2)以為語言2的語音輸出。同樣,在另一方向上,來自講語言2的講話者2的輸入語音被輸入到用于語言2的自動語音識別引擎(ASR2)。例如,ASR2使用傳統(tǒng)自動語音識別技術將為語言2的輸入語音轉換成為語言2的文本。從ASR2輸出的文本被輸入到將為語言2的文本翻譯成語言1的機器翻譯引擎(MT2)。然后,來自MT2的所翻譯的為語言1的講話輸出在文本顯示器14上和/或通過使用用于語言1的文本至語音合成器(TTS1)的揚聲器16以為語言1的語音輸出。再次,可根據(jù)允許多方和/或多語對話或者會議的應用和布局(deployment)添加另外的語言方向上的多個另外的布置。此外,每個方向包括信息提取模塊、用于語言1的IEM1以及用于語言2的IEM2。IEM1接收從ASR1輸出的為語言1的文本,并且IEM2接收從ASR2輸出的為語言2的文本。此外,在各種實施方式中,如圖1所示,IEM1還可接收來自MT1的輸出,并且IEM2還可接收來自MT2的輸出。IEM被配置為從人與人對話中提取相關信息。在一種實施方式中,IEM通過格式化和語法分析步驟(PARS)以通過語義語法(semanticgrammar)解析來自ASR引擎(或者MT)的文本語句,來處理其來自相應ASR(或者MT)的相應文本輸入。在各種實施方式中,IEM可使用Phoenix解析器對來自ASR引擎的文本進行解析。關于Phoenix解析器的更多細節(jié),可在以下文件中找到:W.Ward,“ExtractingInformationinSpontaneousSpeech”,ProceedingsofInternationalConferenceonSpokenLanguage,1994和W.Ward,“UnderstandingSpontaneousSpeech:thePhoenixSystem”,ProceedingsofICASSP‘91,1991,通過引用將其全部內容結合在此??商娲?,如果僅提取特定可預測類型的信息(例如,名稱,編號),則更簡單的布置可足夠用于信息提取,諸如,類型標記器(classtagger)和文本處理模塊或者命名實體(namedentity)標記器。IEM可檢測期望信息類型的出現(xiàn)并且將其轉換成適用于進一步處理的內部表示。例如,在“我五十六歲了”的句子中,類型標記器的作用可以是檢測數(shù)字(五十六)的出現(xiàn)并且文本處理器將字符串“五十六”轉換成適用于進一步處理的數(shù)字條目“56”。圖6是示出根據(jù)各種實施方式的IEM的過程流的流程圖。在步驟60,解析步驟可分配對應于所說句子的角色(role)或者語言行為(speechact)的語義幀,并且在步驟62,將該句子中的關鍵字(或者多個關鍵字)映射到該幀中的語義間隙(slot)。然后,在步驟64,可將語義幀和間隙復制到電子表格的適當條目中,其中,該表格隨后制成結果報告(resultingreport)。優(yōu)選地,表格28為語言1或者語言2。出于相同的討論,假定是語言1,則表格28填充(populate)有來自講語言1的講話者1的識別詞語和/或從語言2被翻譯成語言1的來自講話者2的翻譯詞語。該表格可以是存儲在語音對話和提取系統(tǒng)12的數(shù)據(jù)存儲器(諸如,遠程或者本地數(shù)據(jù)庫26,數(shù)據(jù)庫26可存儲在便攜式語音對話系統(tǒng)12的主存儲器(primarymemory)或者輔助存儲器(secondarymemory)中或者存儲在遠程計算機系統(tǒng)的數(shù)據(jù)存儲器中的電子表格28。根據(jù)人-人交互(例如,醫(yī)生或者患者)過程中的講話者的角色,并且根據(jù)所應用的語法或者提取工具,則結果表格例如包含在使用信息記錄之后用于診斷、治療或者處方的探索。在另一實施方式中,代替解析,IEM使用口語詞(spokenterm,口頭詞)檢測或者關鍵字測定(spotting)(KWS)模塊,其代替語義幀而僅提取關鍵字并且將其復制到該報告中。也可通過識別文本字符串中的名稱或者類型的命名實體或者類型標記模塊給出關鍵字函數(shù)。當在表格/報告中識別和填寫命名實體(正確的名稱,地址名稱、藥物、食品或者數(shù)值(體重、年齡、…)等)時特別有用。在提取用于諸如病患記錄準備、醫(yī)院登記、對災難救援的難民登記等的需求的名稱中,命名實體和數(shù)字表達起到重要作用。關于KWS模塊的更多細節(jié)可在以下文件中找到:L.Ratinov和D.Roth,“DesignChallengesandMisconceptionsinNamedEntityRecognition”,CoNLL(2009)以及J.R.Finkel、T.Grenager和C.Manning,“IncorporatingNon-localInformationintoInformationExtractionSystemsbyGibbsSampling”,Proceedingsofthe43rdAnnualMeetingoftheAssociationforComputationalLinguistics(ACL2005),pp.363-370,以及美國專利8,204,739,通過引用將其全部內容結合在此。在另一個實施方式中,IEM采用信息檢索(IR)模塊。如圖2所示,IR模塊IR1和IR2可從大型遠程文件數(shù)據(jù)庫中提取相關文件或者響應,包括萬維網。IEM可經由無線(例如,WiFi)或者有線網絡連接與萬維網通信。以這種方式,IR模塊IR1和IR2接收所轉錄的輸入語句并且從與其相關的文件中檢索相關文件或者字符串。IR模塊IR1和IR2可通過諸如萬維網、維基百科文章、幫助文件(Helpfiles)、宣傳材料(promotionalmaterial)、產品供應(promotionalmaterial)等大型數(shù)據(jù)庫執(zhí)行搜索,以在用戶(例如,講話者之一或者另一用戶)與另一人進行談話時將相關文章或者指令呈現(xiàn)給用戶。根據(jù)并且作為人人談話的附帶結果,可能性的應用是指令、相關廣告、娛樂、笑話、新聞等的檢索。特別地,該實施方式非常適用于較少結構化的人-人對話,其中,所期望的結果不是結構報告,而是相關信息。圖1和圖2中所示的語音翻譯設備12可被實施為具有執(zhí)行對應各個模塊(例如,ASR引擎、MT引擎、TTS單元以及IEM)的軟件代碼的一個或多個處理器的基于計算機的系統(tǒng)。例如,如下面結合圖10所進一步描述的,隨機存取存儲器(RAM)212和/或非易失性存儲器(例如,ROM)216可存儲用于ASR引擎、MT引擎、TTS單元以及IEM的軟件代碼,并且應用處理器204可執(zhí)行代碼。在一種實施方式中,在圖1和圖2中所示的ASR引擎、MT引擎、TTS單元以及IEM可利用單個基于計算機的設備(諸如,個人電腦、膝上型電腦、平板電腦、智能手機等)來實施。盡管圖1和圖2中示出了兩個麥克風18a、18b(每個講話者一個麥克風),然而,計算機設備可使兩個(或者更多個)講話者共用一個麥克風。文本輸出可顯示在計算機設備的監(jiān)視器/顯示器上和/或通過揚聲器輸出。在某些實施方式中,切換(toggle,觸發(fā))輸入可用于在兩個(或者更多個)講話者之間切換。在其他實施方式中,語音翻譯設備12可自動識別輸入語言(例如,語言1或者語言2),如在美國公開申請公開號2011/0307241中所描述的。根據(jù)各種實施方式,存儲表格/報告的數(shù)據(jù)庫可以是計算機設備的存儲器的一部分或者可以是經由基于計算機的電子電話和/或數(shù)據(jù)網絡上傳數(shù)據(jù)的遠程數(shù)據(jù)庫。在其他實施方式中,可使用分布式計算系統(tǒng)。例如,如圖3所示,與講話者1相關聯(lián)的部件(例如,ASR1、MT1、TTS2以及IEM1)可以是一個計算機20(例如,智能電話、個人電腦、膝上型電腦等),并且與講話者2相關聯(lián)的部件(例如,ASR2、MT2、TTS1以及IEM2)可以是另一計算機設備22。來自MT1的輸出可經由基于計算機的電話和/或數(shù)據(jù)網絡24傳輸?shù)街v話者2的計算機設備22,并且反之亦然,可在中央服務器上完成所有計算,并且講話者1和2僅攜帶諸如智能電話或者平板電腦的輸入/輸出設備。在這種實施方式中,數(shù)據(jù)庫26經由電子電話和/或數(shù)據(jù)網絡可與講話者的計算機通信。如圖4所示,還可通過多模式交互界面(MMII)來擴展本發(fā)明的各種實施方式。語音識別自動口語詞檢測或者語義解析(semanticparsing)非常不完美并且將偶爾丟失提取相關或者重要的信息。為了使報告和檢索功能強健地并且高效地工作,在各種實施方式中可使用多模式交互以通過交互方式識別關鍵信息。MMII可包括用戶通過其可與系統(tǒng)交互以將額外信息供應給系統(tǒng)的一種或多種方式(means,手段)。例如,講話者的計算機設備32的顯示器30可以是檢測觸摸屏顯示器30的用戶觸摸(例如,通過手指或者手寫筆)的觸摸屏。在這種實施方式中,可在顯示器30上顯示來自講話者(講話者1)的識別語音的文本,并且通過敲擊在顯示器30上所示的適當關鍵字,講話者(講話者1)可識別在顯示文本中的關鍵字。在其他實施方式中,講話者(講話者1)可使用觸摸屏30和/或傳統(tǒng)的計算機鼠標34或者鍵盤36在顯示器30上拖拽關鍵詞并且將其拖放至表格(其同時在顯示器30上顯示)中。此外,用戶可通過口頭輸入校正(例如,口頭提供詞匯的正確拼寫)來校正表格中的條目(例如,校正拼寫),通過設備32的麥克風38檢測口頭輸入并且通過語音識別軟件(例如,ASR1和MT1)處理口頭輸入以校正表格中的錯誤。將信息從人與人對話轉移至表格應理想上始終自動地完成,但是,多模式交互提供強健的從錯誤恢復的機制。在這種情況下,可識別兩種不同類型的錯誤:遺漏和錯誤的信息。在遺漏的情況下,計算機設備(例如,圖4中的計算機設備32)可具有(并執(zhí)行)軟件來提供多模式支持以輸入正確信息。這包括將正確信息從語音轉錄(transcription)中拖拽到表格,和/或將正確信息直接鍵入/拼寫/手寫到表格中。在錯誤的情況下,可使用諸如在所公開的美國申請公開號2011/0307241以及專利5,712,957和5,855,000中所描述的多模式錯誤校正技術來校正錯誤信息,通過引用上述文件的全部內容結合在此。如上所述,用戶可口頭輸入校正。此外,計算機設備32可具有能夠檢測用戶的手勢或者其他動作的手勢識別功能(例如,照相機和視頻處理軟件)以指示或者校正表格中的錯誤或者確認表格中的數(shù)據(jù)的準確度。以這種方式,用戶可手寫、作手勢、拼寫、重拼、解釋等來校正錯誤并且由正確信息替換錯誤。例如,還可使用單個對話來通過語音完成錯誤恢復(“你說的是John還是Joan”)。在圖4中,觸摸屏30被示出為顯示來自MT1的輸出,但是,如上所述,其還可顯示來自ASR1的輸出,特別是在如上所述的利用多模式轉移和校正技術的實施方式中。如上所述,系統(tǒng)可被多個講話者使用。圖5示出了具有分別說不同的語言的三個講話者的這種實施方式。在具有分別說語言1、2和3的三個講話者的該實例中,講語言1的講話者1的言語被翻譯成語言2和3;講語言2的講話者2的言語被翻譯成語言1和3;并且講語言3的講話者3的言語被翻譯成語言1和2。該系統(tǒng)可以類似方式擴展至更多個講話者、更多種語言和/或單語使用。此外,盡管在圖5中,IEM被示出為接收來自ASR的輸出,但IEM還可被連接至MT并接收來自MT的輸出,在這種情況下,IEM也可從翻譯中提取信息。在各種實施方式中,本發(fā)明可提供:·作為跨語言人-人對話的附帶結果的隱含信息提取?!ぷ鳛閱握Z人-人對話的附帶結果的隱含信息提取(如下面進一步所描述的)?!ねㄟ^應用語義解析器的對人-人對話的信息提取?!ねㄟ^應用命名實體標記器、單詞測定器或者口語詞檢測的對人-人對話的信息提取?!ねㄟ^應用信息檢索來查找匹配文件的對人-人對話的信息提取?!る[含信息提取擴展在人道主義和軍事部署、難民登記、注冊、統(tǒng)計信息收集、疾病爆發(fā)、醫(yī)生-患者對話、分診中的應用?!る[含信息提用于廣告、幽默、娛樂的應用。·多模式表格填寫和校正。通過觸摸(敲擊)、拖和放、交叉模式拼寫、手寫來校正和完善丟失條目以用于校正或者完善丟失信息。·界面(interface)布局:語音翻譯界面和表格一起填充到同一屏幕上。o通過信息提取將信息自動填入(或者預填入)到表格中。如果預填入不正確,則交叉模式校正。o提供可替代的直接輸入,選擇隱含的或者明確的表格填寫。不同形式、手寫、點擊、重拼、拼寫作為可替代的直接輸入。o從語音翻譯界面共享并且上傳報告?!そ缑娌季郑赫Z音翻譯界面與表格一起被填充到同一屏幕和喜好列表上。o除語音翻譯和表格填寫之外,指令和預配置短語的播放(playback)。o拖和放、觸摸以從語音翻譯中轉移信息。o通過信息提取自動預填入信息。如果預填入不正確,則交叉模式校正。o提供可替代的直接輸入,選擇隱含的或者明確的表格填寫。不同形式、手寫、點擊、重拼、拼寫作為可替代的直接輸入。o通過多模式校正提供錯誤恢復。通過手勢校正以及補充模式校正信息來替換錯誤。o從語音翻譯界面共享并且上傳報告。o除表格填寫之外,提供具有自由式(free)語音翻譯的播放短語的混合。圖9示出了具有可填入人與人對話中的提取信息的數(shù)字表格的示例性用戶界面89。例如,表格可存儲在設備12的存儲器26中并且具有表格94的界面89可在顯示器14上顯示。左側是兩個字段(field,區(qū)段)90、92-在該實例中,一個字段位于另一字段上方-其示出了所翻譯的語音。該實例假定了英語-西班牙語翻譯情景。如果講話者1說英語,則在字段90中文本地示出說英語的講話者1的識別語音,并且在字段92中文本地示出西班牙語譯文。同樣,如果講話者2說西班牙語,則在字段92中文本地示出說西班牙語的講話者2的識別語音,并且在字段90中文本地示出英語譯文。隨著兩個講話者之間的對話的進行,字段90、92可示出兩個講話者的識別語音及其譯文。此外,設備揚聲器16可聽見地輸出所翻譯的語音,因此,另一講話者可以其優(yōu)選的語言聽見該語音。例如,繼續(xù)上述其中講話者1說英語并且講話者2說西班牙語的相同實例,設備揚聲器16可出于講話者2的利益輸出講話者1的言語的西班牙語譯文,并且相反地可出于講話者1的利益輸出講話者2的言語的英文譯文。用戶可通過語言選擇輸入91a-b選擇所期望的第一語言和第二語言。在圖9至圖10的實例中,通過人-人對話來填入的表格94是醫(yī)療數(shù)據(jù)表格。例如,這種表格可用于醫(yī)生-患者對話中。因此,從該對話中提取醫(yī)療相關的信息填入或者填充表格94的各個字段。在字段90、92中示出了通過語音翻譯來傳達(mediate)的人-人(例如,醫(yī)生-患者)對話。此外,當關鍵信息(例如,有關或者適用于表格94的信息)以任一語言(即,在該實例中,為英語或者西班牙語)呈現(xiàn)時,它被提取并預填入到表格94的適用字段中。例如,醫(yī)生可以語言1(例如,英語)詢問“你多大了?”患者可以語言2(例如,西班牙語)回答“我50歲了(Tengo50)”(其翻譯成英語“我五十歲了”)。此處,可從對話中提取關鍵信息“50”并且填入到表格的年齡字段96中。而且,例如“你多大了?”的問題的上下文(context)可被設備使用以確認患者的回答將包括被填入在年齡字段96中的年齡。以類似的方式,醫(yī)生-患者對話可被用于填充表格的其他字段,諸如,姓名字段98、100,性別字段102,體重字段104,妊娠檢查字段106,過敏字段108等。在各種實施方式中,表格還支持除語音提取之外的其他模式的數(shù)據(jù)輸入。例如,通過觸摸屏界面14,例如,如果用戶(例如,醫(yī)生)能夠在不進行問答對話的情況下確定患者的性別,則醫(yī)生可直接點擊表格中的“男”和“女”字段。同樣,如果患者是男性,則可自動填充“不懷孕”響應或者可去除或修改這個和其他相關的問題,從而消除不相關或者多余的問題。此外,在各種實施方式中,替代講話者1以語言1表述(enunciate)與表格中的其中一個字段相關的問題,例如,以英語詢問“你多大了?”,用戶可激活(例如,經由觸摸屏界面)圖標,例如,“詢問”輸入110,該圖標在被激活時使設備12以所選擇的第二語言(在該實例中,為西班牙語,參見語言選擇輸入91)可聽見地輸出被設計成引出針對相關字段(例如,年齡字段96)的信息的預記錄問題。例如,通過激活與年齡字段96相關聯(lián)的“詢問”輸入100,設備12可以可聽見地輸出諸如“essuedad?”(為西班牙語的“你多大了”)的問題,而無需用戶首先以語言1(例如,英語)表述該問題。如圖9中的實例所示,表格94中的其他字段可具有相關聯(lián)的“詢問”按鈕(其使設備12可聽見地輸出被設計成引出針對其相關聯(lián)字段的期望信息的預記錄問題)。使用預記錄的問題可通過消除講話者1(例如,醫(yī)生)首先以講話者1的語言表述相關問題的需要來加快對話(在重復性任務和/或對話中特別有用)。而且,用于“詢問”按鈕的預記錄問題可被適配成所選擇的語言以避免混淆和模糊講話者2(例如,患者)。即,可檢查和證實預記錄的問題以便以語言2具有較少的混淆和歧義,以從而增加來自講話者2的準確響應以及設備12的準確提取的可能性。同樣,在各種實施方式中,界面89可提供按鈕或者輸入(未示出),當按鈕或者輸入被用戶激活時,預記錄的指示性或說明性信息-與問題相對-以語言2(例如,西班牙語)被表述給講話者2(例如,患者)。例如,這種預記錄的示例性信息可說明對患者程序的一個方面。例如,代替醫(yī)生(例如,講話者1)以英語說“現(xiàn)在我要檢查你的血壓”并且然后將該問題翻譯成語言2(例如,西班牙語),醫(yī)生可僅激活用于血壓的相關聯(lián)的告知(tell)按鈕,在這種情況下,設備可以可聽見地輸出“Ahoravoyarevisarsupresiónarterial”(西班牙語“現(xiàn)在我要檢查你的血壓”),從而消除了醫(yī)生首先以語言1使說明可聽化并隨后將其翻譯成語言2的需要。預記錄的問題和說明可節(jié)省時間和精力,特別是在諸如患者的個人數(shù)據(jù)(姓名、年齡等)或者生命體征的收集的重復性詢問過程中。在其他實施方式中,代替具有預記錄的問題和答案,設備12可使用語音翻譯/對話系統(tǒng)的功能來合成地(synthetically,綜合地)以多語言產生問題和/或答案。例如,用戶可以語言1將他/她自身的問題或者說明鍵入到用于表格94的各個字段的表格詢問字段中,從而經由語音或者文本輸入和存儲在設備12中。設備12可如上所述的將該輸入翻譯成語言2并且根據(jù)需要以L1、L2或者任何其他語言產生用于重復性播放的合成口語詢問。因此,系統(tǒng)的用戶能夠在不需要任何其他語言的語言能力的情況下出于其目的定制由設備產生的任何消息或者詢問。當然,圖9僅是醫(yī)療數(shù)據(jù)表格的一個實例,并且可使用具有不同的和/或另外的數(shù)據(jù)字段的不同的表格。此外,可使用除醫(yī)療數(shù)據(jù)表格之外的其他用途。應注意,來自人人對話的信息的提取并非總是準確或者正確的。在各種實施方式中,設備12可提供用于修正或者校正表格中的信息的方式。這些方式可不同于語音提取,即,其他輸入模式(例如,允許對表格的多模式輸入)。例如,用戶(例如,講話者1)使用觸摸屏界面14可通過觸摸和拖拽手勢或者輸入將信息從字段90、92中的任一字段拖到表格94中的適當字段??商娲鼗蛘叽送?,在其他實施方式中,可使用不同模式的表格校正或者數(shù)據(jù)輸入。例如,在各種實施方式中,用戶(例如,醫(yī)生)可點擊或者不然選擇表格94中的提取數(shù)據(jù)以對表格中的數(shù)據(jù)進行編輯。例如,在各種實施方式中,用戶可鍵盤(包括觸摸屏鍵盤)通過重說用于語音提取的數(shù)據(jù)、通過在觸摸屏界面14上的手寫手勢或者通過任何其他合適的方式來編輯(或者刪除)所選擇的數(shù)據(jù)。同樣,如上所述,在不明確地詢問有關表格94的問題的情況下,可獨立輸入信息。例如,醫(yī)生可看到患者是女性,并且僅直接點擊或者鍵入表格94上的信息,從而在此階段繞過人-人對話。在這種情況下,用戶(例如,講話者1)可選擇直接按壓(pushon)字段并且激活任一語言的語音識別以直接輸入信息??商娲?,可鍵入或者拼寫或者手寫用于表格94中的字段的信息。美國專利5,712,957和5,855,000(通過引用將其全部內容結合在此)提供了關于各種多模式校正技術的細節(jié)。圖10是根據(jù)本發(fā)明的各種實施方式的設備12的框圖。在這種實施方式中,設備12例如可被實施為智能便攜式設備,諸如,膝上型電腦、智能電話或者平板電腦。如圖10的實例所示,設備12可包括多個處理器202、204。基帶處理器202可處理根據(jù)任何合適的通信技術(例如,3G、4G等)的經由移動電信網絡(例如,蜂窩網絡)的通信。基帶處理器202可包括專用隨機存取存儲器(RAM)214。在各種實施方式中,基帶處理器202可與收發(fā)器206通信。隨后,收發(fā)器206可與一個或多個功率放大器208和天線210通信。移動電信網絡的輸出(outgoing)信號可在基帶被基帶處理器202處理并且被提供至收發(fā)器206。收發(fā)器206和/或基帶處理器206可將輸出信號調制到載波頻率。一個或多個放大器208可放大輸出信號,該輸出信號隨后經由天線210發(fā)射。移動通信網絡的輸入(incoming,進入)信號可通過天線210接收,通過一個或多個放大器208放大并且提供至收發(fā)器206。收發(fā)器206或基帶處理器202可將輸入信號解調到基帶。應用處理器204可執(zhí)行操作系統(tǒng)以及軟件應用程序,包括本文中所描述的語音識別和翻譯模塊(例如,ASR、MT、圖1中所示的TTS和IEM模塊)。應用處理器204還可執(zhí)行用于觸摸屏界面232的軟件,包括用于輸入和校正在觸摸屏界面232上顯示的表格94中所示的數(shù)據(jù)的技術。應用處理器204也可與應用RAM212和非易失性數(shù)據(jù)存儲器(例如,ROM)216通信。此外,應用處理器204可另外與諸如組合的WI-FI/藍牙收發(fā)器218的其他硬件設備通信。WI-FI/藍牙收發(fā)器218可處理與LAN的射頻(RF)通信(例如,根據(jù)WI-FI標準、或者任何合適的標準)或者(例如,根據(jù)藍牙標準或者任何合適的標準)處理設備200與另一無線設備之間的直接RF通信。在各種實施方式中,設備200還可包括全球定位系統(tǒng)(GPS)222,其經由GPS天線223與基于衛(wèi)星的GPS系統(tǒng)通信以為應用處理器204提供描述設備200的地理位置的信息。觸摸屏232既可以可視形式提供對設備12的用戶的輸出,又可接收來自用戶的輸入。輸入可以是表示用戶的屏幕觸摸的信號的形式。音頻編解碼器模塊224可提供用于解碼和播放音頻信號的硬件和/或軟件。在某些實施方式中,編解碼器224還可包括數(shù)模轉換器。音頻輸出信號可被提供至設備揚聲器16和/或可接收一組耳機的插口和/或用于播放音頻輸出信號的揚聲器??山浻稍O備麥克風18提供音頻輸入信號。設備還可包括數(shù)碼相機240。在特定實施方式中,可包括各種其他傳感器。磁傳感器226可感測設備附近的磁場。例如,各種應用程序和/或系統(tǒng)功能可使用磁傳感器226來實現(xiàn)羅盤(compass)。加速計(accelerometer)228和陀螺儀230可提供描述設備的運動的數(shù)據(jù)。例如,來自加速計228和陀螺儀230的數(shù)據(jù)可用于確定觸摸屏232的顯示器的方位(例如,縱向對比橫向)。設備200可由電池234供電,電池234反過來可由電源管理集成電路(PMIC)236來管理。例如,I/O收發(fā)器238可根據(jù)通用串行總線(USB)或者任何其他合適的標準管理設備與其他設備之間的有線通信。連接器239可方便有線連接。在某些實施方式中,經由連接器239和I/O收發(fā)器238的連接可提供用于為電池234充電的電源。返回圖9中的實例表格,可使用其他數(shù)據(jù)輸入形式來添加或者確認所提取的信息,諸如,GPS信息(經由GPS接收器222)、照相機輸入(經由照相機240)、加速計228、條形碼讀取器(例如,經由運行在設備上的條形碼應用程序或者作為設備一部分的獨立硬件條形碼讀取器)等,從而獲得諸如性別或者個人身份、位置等的信息。這可補充語音對話以自動填入信息中,并且由此提高效率。補充信息還可提高所提取的信息的準確性或者交叉驗證給定的信息。例如,來自語音的自動性別分類可與醫(yī)生的意見或者點擊一起預填入性別字段102?;蛘呖梢酝ㄟ^照相機面部識別或者講話者身份驗證或者條形碼讀取來驗證姓名。在各種實施方式中,可通過使用聲學置信度的置信度測量以及確認所提取的信息的可信度的補充信息來確定有疑問的信息。例如,可諸如通過突出顯示(highlight)的方式來調出表格中有疑問的信息。例如,醫(yī)生可直接輸入患者的性別,但是,如果聲學置信度和講話者/性別ID建議該信息可能是錯誤的,則置信度測量可突出顯示該信息??赏怀鲲@示或者不然調出表格中以及語音翻譯對話框的文本中的低置信度信息??赏ㄟ^對非規(guī)范用語(OOV)項、聲學、語義以及翻譯歧義的檢測,得出其他低置信度源。低置信度區(qū)可被突出顯示并且被模糊地解釋(類似的詞,可替代的含義、丟失的單詞等)在圖9的實例中,以英語完成表格94。設備12的用戶可通過激活表格語言輸入115在語言1(例如,英語)與語言2(例如,西班牙語)之間來回切換。當激活輸入115時,表格94可從顯示為語言1(在該實例中,為英語)轉換成語言2(在該實例中,西班牙語),并且反之亦然,當二次激活輸入115時,執(zhí)行上述操作。以這種方式,講話者1(例如,醫(yī)生)可以語言1(例如,英語)查看表格的每個方面(標簽、詢問、內容等),并然后將表格轉換成語言2(例如,西班牙語)以通過講話者2(例如,患者)進行確認和/或驗證。注意,在各種實施方式中,所有信息、表格條目的名稱、正在輸入的內容、要被回放的自動消息、按鈕和指令的說明以及名稱可通過系統(tǒng)的語音和翻譯功能來產生并且可根據(jù)需要在各語言之間進行切換。此外,在各種實施方式中,語音翻譯設備12允許以其多種語言來定義表格,而無需用戶或者參與者了解其他語言。例如,從英文的模板表格中(例如,諸如Excel的電子表格)可讀取該表格并且生成表格(如圖9的實例所示)。參與者(諸如,在我們的實例中,為醫(yī)生)可根據(jù)需要編輯模板表格來添加問題或者意見,然后,將該新的/經修改的表格讀取到設備中。然后,語音翻譯部件自動生成每個表格標簽的翻譯、表格消息、并且隨后還(在使用過程中)生成提取信息,并且可以每種語言產生合成語音發(fā)聲。此外,例如,經由收發(fā)器206或者收發(fā)器218,設備12能夠通過電子郵件或上傳的電子版患者記錄來共享已完成或者未完成的表格(存儲在數(shù)據(jù)庫26中),從而從移動便攜式設備實現(xiàn)在中央數(shù)據(jù)庫中的信息記錄的不斷的和即時的更新。在各種實施方式中,用戶可通過激活共享圖標116發(fā)起該表格的這種無線傳輸或者上傳。上傳/傳輸?shù)谋砀窨?不可包括實際對話數(shù)據(jù)以及相關的多模式用戶交互、詢問以及編輯,因此提供關于整個人-人相遇(encounter)和交互的粒度(granular)信息。在各種實施方式中,設備可在同步的和連續(xù)的翻譯模式下操作(例如,翻譯語音并且提取可填充表格的信息)。在同步模式下,設備實時地使用正在進行的連續(xù)對話的轉錄和翻譯,而不使用按鈕或者其他輸入來在講話者之間切換,并且不需要等待翻譯完成。在這種情況下,設備將相關和有關的信息提取到如上的表格中并且錯誤校正執(zhí)行相同操作。在連續(xù)翻譯模式下,講話者輪流講話并且連續(xù)講話。講話者可使用設備(諸如,觸摸屏界面14上)上的按鈕或者其他輸入從一個翻譯信道(例如,從語言1翻譯成語言2)轉換成另一信道(例如,從語言2翻譯成語言1)。為了方便用戶,界面可選擇性地啟用或者禁用語音翻譯和/或表格窗口。此外,如圖7中的實例所示,在各種實施方式中,設備可包括并且執(zhí)行用于交互式消歧的軟件,例如,交互式消歧模塊40,憑借其,如果察覺歧義或者錯誤,設備12使用交互式消歧模塊40假定發(fā)起并且提議對可能的錯誤和幾近失誤(nearmiss)的反饋。在各種實施方式中,這可能發(fā)生在兩個層面(level)上:識別和翻譯層面。在識別層面上,如果(通過ASR模塊1或者2所確定的,視情況而定)識別為低置信度,或者如果所識別的文本與在所期望的表格的層面上所預期的沖突或者不匹配,則交互式消歧模塊40可諸如可聽見地經由內部揚聲器16和/或可視地經由文本顯示器14將詢問發(fā)回給用戶。由于過多的消歧詢問可能惹惱用戶,所以應優(yōu)選認真地選擇請求澄清(clarification)的時間和時刻。在各種實施方式中,可使用評估識別假設的置信度或者真實性的若干標準:·如果聲學信號很可能是被識別的語句而建立的聲學置信度得分。·要被填充的表格的上下文或者所提取的信息的真實性。如果在要被填充的表格的層面,講話者目前正在討論本周的約會日期,則“我們在星期二見面”相比“我們見面和他是誰?”更加可能。因此,如果存在符合表格中共同選項的模糊詞匯(例如“星期二”),則應當質疑“我們見面和他是誰”的識別假設?!び蓙碜云渌v話者(以他們的語言)的言語的翻譯給出的語言上下文也能夠以預期為條件并且由此質疑或者更改識別假設。在上述實例中,如果其他講話者以西班牙語說“cuandosehanencontrado”,則該情景翻譯成英語“你們什么時候見的面”提供了提升“星期二”而非“他是誰?”的假設的可能性的語言建模上下文(modelingcontext)。三種置信度測量可用于決定何時請求來自用戶的消歧。在各種實施方式中,這些標準的一種或者多種被組合成一種置信度或者澄清得分。然后,可發(fā)起消歧詢問以征求澄清。在翻譯層面,在各種實施方式中,如果(a)若干種輸出翻譯是可能的并且具有相似的可能性(存在位于最高得分翻譯的閾值得分差異之內的至少一種其他翻譯),或者如果(b)存在一種更為可能的輸出(例如,在最高得分輸出翻譯的閾值得分差異之內不存在可替代的輸出翻譯),最高得分輸出以目標語言具有低置信度并且可能是錯的,則交互式消歧模塊40可基于來自MT引擎(例如,MT1或者2)的輸入請求消歧。在后者情況(b)中,可以他/她的(源)語言將詢問發(fā)回給用戶,從而更改講話者的可能問題并且為了清晰起見請求重述或者解釋。在前者情況(a)中,需要考慮兩種或者更多種可替代的情況。在這種情況下,系統(tǒng)可呈現(xiàn)給用戶以源語言嵌入載體句子中的這兩種情況(其以目標語言消除兩種單詞的使用的歧義)。例如,如果用戶以英語說下列句子—“這是我的指甲”—則單詞“指甲”是有歧義的并且可能被翻譯成如“clavo”或如的西班牙語。如果兩種結果的翻譯可能性在真實性閾值范圍內是可比較的,則系統(tǒng)可請求來自用戶的消歧。在各種實施方式中,這可通過搜索包含質疑其訓練數(shù)據(jù)庫中的用途的單詞的短語來完成此操作。例如,講話者的設備可經由數(shù)據(jù)網絡連接到搜索遠程訓練數(shù)據(jù)庫的遠程計算機系統(tǒng)。遠程計算機系統(tǒng)可檢測消歧或者講話者的設備之一可檢測消歧。在可替代的實施方式中,代替訓練數(shù)據(jù)庫,可使用可存儲在講話者的設備上或者遠程的常規(guī)詞典。在源端,系統(tǒng)則處于詢問用戶的位置:“你認為‘nail’是如在“他們使用釘子固定門”中的意思還是如在“她把她得指甲涂成紅色”中的意思”。如果用戶選擇一種或者另一種解答,則該系統(tǒng)可采用所選擇的翻譯意義,并且提高對該詞意義的翻譯概率??稍陲@示器上圖形地或者通過口頭消歧短語來給出兩個有歧義的選項的呈現(xiàn)。例如,用于消歧模塊的代碼可存儲在RAM212中和/或非易失性數(shù)據(jù)存儲器216中,并且可由應用處理器204執(zhí)行。參見圖10。圖8是根據(jù)各種實施方式的交互式消歧模塊40的過程流的流程圖。在該實例中,假設講話者1說語言1,出于講話者2的利益,其將被翻譯成語言2。在步驟50,交互式消歧模塊40確定在講話者1的為語言1的識別語音中是否存在歧義。如上所述,交互式消歧模塊40基于下列情況作出該確定:(i)來自ASRl的對講話者1的言語的聲音識別置信度得分,(ii)基于要被提取的信息(例如,要被填充的表格)的ASR1的假設的真實性,以及(iii)基于對另一講話者(例如,來自MT2的講話者2)的言語的翻譯的語言上下文的假設的真實性?;诘梅趾驮u估(以及可能的其他因素),交互式消歧模塊40確定是否應向講話者1發(fā)起消歧詢問。如上所述,如果是,則在步驟52發(fā)送消歧詢問。如果在步驟50沒有檢測到歧義,則過程轉到步驟54,其中基于從語言1到語言2的講話者1的翻譯語音來確定是否需要執(zhí)行消歧詢問。這可如上所述來完成。如果需要消歧詢問,則過程轉到發(fā)起消歧詢問的步驟52。當然,如果由于翻譯等而不需要消歧詢問,則該系統(tǒng)繼續(xù)步驟56的正常語音識別和翻譯過程。如上所述,在步驟52的消歧詢問基于歧義類型(例如,識別相對翻譯)可具有不同的格式。根據(jù)各種實施方式,上述消歧功能可在具有或者不具有信息提取功能的情況下使用。在上述描述中,在雙語對話的背景下描述了信息提取過程。在其他實施方式中,可在單語對話過程中執(zhí)行信息提取過程。類似于雙語模式,單語模式下的設備可執(zhí)行對講話者的語音發(fā)聲的識別并且提取識別語音中的關鍵信息以填入表格28的各種適用字段中。使用與上述雙語模式的相同實例,醫(yī)生可以第一語言(例如,英語)詢問“你多大了?”患者可以相同的語言(即,單語對話)回答“我五十歲了?!笨蓮脑搶υ捴刑崛£P鍵信息(在此為“50”)并且填入表格94的年齡字段96(參見圖9)。而且,設備可使用該問題的上下文(例如,“你多大了?”)來確定患者的回答將包括填入年齡字段96中的年齡。以類似的方式,醫(yī)生-患者對話可用于填充表格的其他字段,諸如,姓名字段98、100,性別字段102,體重字段104,妊辰檢查字段106,過敏字段108等。參考圖9的實例界面,在該實施方式中,說共同語言(例如,英語)的兩個講話者的識別語音的文本可分別顯示在兩個字段90、92中。從兩個講話者之間的單語對話中所提取的信息可顯示在表格94的右側。在各種實施方式中,可通過即按通話開關(push-to-talkswitch)來控制人類用戶之間的對話流(僅在記錄按鈕激活之后記錄每句言語),或者系統(tǒng)可在自由式多信道開放式麥克風記錄(同步翻譯)模式下操作,同時操作來自兩個(或者多個)講話者的語音。此外,如上,設備12可通過電子郵件或上傳的電子版患者記錄來共享已完成或者未完成的表格,從而從移動便攜式設備實現(xiàn)在中央數(shù)據(jù)庫中的信息記錄的不斷的和即時的更新。所上傳/傳輸?shù)谋砀窨苫蛘呖刹话▽嶋H的對話數(shù)據(jù)以及有關的多模式用戶交互、詢問以及編輯,從而提供關于整個人-人相遇和交互的粒度信息。因此,根據(jù)各種實施方式,本發(fā)明涉及一種用于從至少第一講話者與第二講話者之間的人與人對話中提取信息的設備。該設備可包括至少一個麥克風、屏幕顯示器、至少一個可編程處理器以及用于存儲數(shù)字數(shù)據(jù)的至少一個數(shù)據(jù)存儲單元。至少一個可編程處理器與至少一個麥克風和屏幕顯示器通信。此外,至少一個可編程處理器被編程為:(i)自動識別通過至少一個麥克風接收的第一講話者的語音;(ii)自動識別通過至少一個麥克風接收的第二講話者的語音;(iii)至少從第二講話者的識別語音中提取信息;(iv)將從第二講話者的識別語音中所提取的信息輸入到存儲在計算機系統(tǒng)的至少一個數(shù)據(jù)存儲單元中并顯示在屏幕顯示器的圖形用戶界面上的電子表格中。根據(jù)各種實施方式:第一講話者說第一語言;第二講話者說不同于第一語言的第二語言;并且至少一個可編程處理器被進一步編程為:(i)將說第一語言的第一講話者的識別語音自動翻譯成第二語言;(ii)將說第二語言的第二講話者的識別語音自動翻譯成第一語言;(iii)通過至少從被翻譯成第一語言的第二講話者的識別語音的翻譯中提取信息,來至少從第二講話者的識別語音中提取信息;并且(iv)通過將從被翻譯成第一語言的第二講話者的識別語音的翻譯中所提取的信息輸入到存儲在至少一個數(shù)據(jù)存儲單元的電子表格中來輸入提取信息。此外,處理器可被進一步編程為:(v)至少從說第一語言的第一講話者的識別語音中提取信息;以及(vi)將從說第一語言的第一講話者的識別語音中所提取的信息輸入到電子表格中。根據(jù)各種實施方式,處理器被編程為通過語義語法解析翻譯來從被翻譯成第一語言的第二講話者的識別語音的翻譯中提取信息。此外,處理器可被進一步編程為從遠程數(shù)據(jù)庫中檢索與提取信息相關的一個或多個文件。此外,處理器可被編程為通過檢測翻譯中的一個或多個關鍵字來從被翻譯成第一語言的第二講話者的識別語音的翻譯中提取信息。此外,處理器可被進一步編程為在將提取信息輸入到電子表格中之前從第一講話者和第二講話者中的至少一個征求反饋。此外,至少一個可編程處理器可被編程為識別并且接收通過設備的用戶經由屏幕顯示器輸入的對電子表格中的提取信息的編輯。在另一個一般性方面中,本發(fā)明涉及一種用于從至少第一講話者與第二講話者之間的人與人對話中提取信息的基于計算機的設備。該設備包括至少一個麥克風、屏幕顯示器以及用于存儲數(shù)字數(shù)據(jù)的至少一個數(shù)據(jù)存儲單元。該設備還包括用于自動識別通過至少一個麥克風接收的第一講話者的語音的第一自動語音識別模塊。該設備進一步包括用于自動識別通過至少一個麥克風接收的第二講話者的語音的第二自動語音識別模塊。此外,該設備包括與第一自動語音識別模塊和第二自動語音識別模塊、至少一個麥克風以及屏幕顯示器通信的信息提取模塊。信息提取模塊用于:(i)至少從第二講話者的識別語音中提取信息;以及(ii)將從第二講話者的識別語音中所提取的信息輸入到存儲在至少一個數(shù)據(jù)存儲單元中并顯示在屏幕顯示器的圖形用戶界面上的電子表格中。根據(jù)各種實施方式:第一講話者說第一語言;第二講話者說不同于第一語言的第二語言;并且該設備進一步包括:(i)第一機器翻譯模塊,與第一自動語音識別模塊通信,其中,第一機器翻譯模塊用于將說第一語言的第一講話者的識別語音自動翻譯成第二語言;以及(ii)第二機器翻譯模塊,與第二自動語音識別模塊通信,其中,第二機器翻譯模塊用于將說第二語言的第二講話者的識別語音自動翻譯成第一語音。在這種實施方式中,信息提取模塊用于:(i)通過至少從被翻譯成第一語言的第二講話者的識別語音的翻譯中提取信息,來至少從第二講話者的識別語音中提取信息;以及(ii)通過將從被翻譯成第一語言的第二講話者的識別語音的翻譯中所提取的信息輸入到存儲在至少一個數(shù)據(jù)存儲單元中的電子表格中來輸入提取信息。在各種實施方式中,信息提取模塊進一步用于:(i)至少從說第一語言的第一講話者的識別語音中提取信息;以及(ii)將從說第一語言的第一講話者的識別語音中所提取的信息輸入到電子表格中。信息提取模塊可通過語義語法對翻譯進行解析來從被翻譯成第一語言的第二講話者的識別語音的翻譯中提取信息。此外,該設備可包括用于從遠程數(shù)據(jù)庫檢索中檢索與提取信息相關的一個或者多個文件的信息檢索器模塊。此外,信息提取模塊可通過檢測翻譯中的一個或者多個關鍵字來從被翻譯成第一語言的第二講話者的識別語音的翻譯中提取信息。該設備可進一步包括多模式交互界面,以在將所提取的信息輸入到電子表格之前從第一講話者和第二講話者中的至少一個征求反饋。在又一個一般性方面中,本發(fā)明涉及一種用于在講話的至少第一講話者與第二講話者之間的人與人對話過程中提取信息的計算機實施的方法。該方法可包括下列步驟:(i)通過基于計算機的信息提取設備的至少一個麥克風接收在對話過程中的第一講話者和第二講話者的語音;(ii)通過基于計算機的信息提取設備自動識別第一講話者的語音;(iii)通過基于計算機的信息提取設備自動識別說第二語言的第二講話者的語音;(iv)通過基于計算機的信息提取設備至少從第二講話者的識別語音中提取信息;以及(v)通過基于計算機的信息提取設備將從第二講話者的識別語音中所提取的信息輸入到存儲在信息提取設備的至少一個數(shù)據(jù)存儲單元中的電子表格中。在各種實施方式中,該方法可進一步包括將表格顯示在基于計算機的信息提取設備的屏幕顯示器上的步驟。此外,在第一講話者說第一語言并且第二講話者說不同于第一語言的第二語言的情況下,該方法可進一步包括下列步驟:(i)通過基于計算機的信息提取設備將說第一語言的第一講話者的識別語音自動翻譯成第二語言;(ii)通過基于計算機的信息提取設備將說第二語言的第二講話者的識別語音自動翻譯成第一語言。此外,至少提取信息的步驟可包括通過基于計算機的信息提取設備至少從被翻譯成第一語言的第二講話者的識別語音的翻譯中提取信息。并且輸入提取信息的步驟可包括通過基于計算機的信息提取設備將從被翻譯成第一語言的第二講話者的識別語音的翻譯中所提取的信息輸入到存儲在信息提取設備的至少一個數(shù)據(jù)存儲單元中的電子表格中。在各種實施方式中,該方法進一步包括:至少從說第一語言的第一講話者的識別語音中提取信息;以及將從說第一語言的第一講話者的識別語音中所提取的信息輸入到電子表格中。從被翻譯成第一語言的第二講話者的識別語音的翻譯中提取信息可包括通過語義語法對翻譯進行解析。該方法可進一步包括通過基于計算機的信息提取設備從遠程數(shù)據(jù)庫中檢索與提取信息相關的一個或者多個文件。從被翻譯成第一語言的第二講話者的識別語音的翻譯中提取信息可包括檢測翻譯中的一個或多個關鍵字。該方法還可進一步包括在將所提取的信息輸入到電子表格中之前通過基于計算機的信息提取設備從第一講話者和第二講話者中的至少一個征求反饋的步驟。此外,該方法可進一步包括:(i)通過基于計算機的信息提取設備確定在第一講話者的識別語音中是否存在歧義;(ii)通過基于計算機的信息提取設備確定在說第一語言的第一講話者的識別語音至第二語言的翻譯中是否存在歧義;以及(iii)一旦通過基于計算機的信息提取設備確定(a)在第一講話者的識別語音中或者(b)在說第一語言的第一講話者的識別語音至第二語言的翻譯中存在歧義,則通過基于計算機的信息提取設備經由基于計算機的信息提取設備的屏幕顯示器向第一講話者發(fā)起詢問,其中,對消歧詢問的響應解除歧義。與歧義存在于說第一語言的第一講話者的識別語音至第二語言的翻譯中時相比,當歧義存在于第一講話者的識別語音中時,向第一講話者發(fā)起的消歧詢問可以是不同的。此外,可基于多種因素確定在第一講話者的識別語音中是否存在歧義,包括:(i)第一講話者的識別語音中的聲學置信度得分;(ii)電子表格的上下文;以及(iii)通過來自第二講話者的一個或多個言語從第二語言至第一語言的翻譯所給出的語言上下文。也可基于多種因素確定在說第一語言的第一講話者的識別語音至第二語言的翻譯中是否存在歧義,包括:在最高得分輸出翻譯的閾值得分差異之內是否存在一個或多個可替代的輸出翻譯;并且如果最高得分輸出翻譯的閾值得分差異之內部存在可替代的輸出翻譯,則最高得分輸出翻譯的得分是否低于最小閾值。在又一個一般性方面中,本發(fā)明涉及一種解除在至少說第一語言的第一講話者與說第二語言的第二講話者之間的人與人對話的語音翻譯中的歧義的計算機實施的方法。該方法可包括下列步驟:(i)通過基于計算機的語音翻譯系統(tǒng)識別說第一語言的第一講話者的語音;(ii)通過基于計算機的語音翻譯系統(tǒng)確定在第一講話者的識別語音中是否存在歧義;(iii)通過基于計算機的語音翻譯系統(tǒng)將說第一語言的第一講話者的識別語音翻譯成第二語言;(iv)通過基于計算機的語音翻譯系統(tǒng)確定在說第一語言的第一講話者的識別語音至第二語言的翻譯中是否存在歧義;以及(v)一旦通過基于計算機的語音翻譯系統(tǒng)確定(a)在第一講話者的識別語音中或者(b)在說第一語言的第一講話者的識別語音至第二語言的翻譯中存在歧義,則通過基于計算機的語音翻譯系統(tǒng)經由語音翻譯系統(tǒng)的用戶界面向第一講話者發(fā)起消歧詢問,其中,對消歧詢問的響應解除歧義。在又一個一般性方面中,本發(fā)明涉及一種用于從至少第一講話者與第二講話者之間的人與人對話中提取信息的設備。該設備可包括:至少一個麥克風、屏幕顯示器和至少一個可編程處理器以及用于存儲數(shù)字數(shù)據(jù)的至少一個數(shù)據(jù)存儲單元。至少一個可編程處理器與屏幕顯示器和至少一個麥克風通信。并且至少一個可編程處理器可被編程為:(i)在第一講話者與第二講話者之間的對話過程中,自動識別通過至少一個麥克風接收的第一講話者和第二講話者的語音;(ii)在第一講話者與第二講話者之間的對話過程中,在顯示在屏幕顯示器上的圖形用戶界面的第一部分上輸出第一講話者和第二講話者的識別語音;以及(iii)在顯示在屏幕顯示器上的圖形用戶界面的第二部分上顯示具有與第一講話者與第二講話者之間的對話相關的信息的表格(例如,提取表格)。至少一個可編程處理器可被進一步編程為從第一講話者與第二講話者之間的對話中提取信息以用于輸出在表格的圖形用戶界面的第二部分上。此外,對于第一講話者說第一語言并且第二講話者說第二語言的情況,至少一個可編程處理器可被編程為:(i)將第一講話者的識別語音翻譯成第二語言;(ii)將第二講話者的識別語音翻譯成第一語言;以及(iii)在圖形用戶界面的第一部分上顯示第一講話者和第二講話者的識別語音的翻譯。此外,至少一個可編程處理器可被編程為識別并且接收由設備的用戶經由屏幕顯示器輸入的對提取信息的編輯。對本領域普通技術人員將顯而易見的是,在本文中所描述的至少某些實施方式可實施為軟件、固件和/或硬件的多種不同實施方式。軟件和固件代碼可通過處理器電路或者任何其他相似的計算設備來執(zhí)行??捎糜趯嵤嵤┓绞降能浖a或者專門的控制硬件并不受限制。例如,本文中所描述的實施方式可以使用任何合適的計算機軟件語言類型的計算機軟件來實施,例如,使用傳統(tǒng)的或者面向對象的技術。這種軟件例如可存儲在任何合適類型的計算機可讀介質或者媒介上,諸如,磁或光學存儲介質??稍诓惶囟▍⒖季唧w軟件代碼或者專門的硬件部件的情況下,來描述實施方式的操作和行為。因為清晰易懂的是,普通領域技術人員將能夠在不付出大量努力和過度實驗的情況下基于本發(fā)明描述來設計軟件和控制硬件來實現(xiàn)實施方式,所以可缺少這種具體的參考。而且,與本實施方式相關聯(lián)的過程可通過可編程的設備來執(zhí)行,諸如,計算機或者計算機系統(tǒng)、移動設備、智能電話和/或處理器。使可編程設備執(zhí)行各種過程的軟件例如可存儲在任何存儲設備中,諸如,計算機系統(tǒng)(非易失性)存儲器、RAM、ROM,閃存、光盤、磁帶或者磁盤。而且,當制造計算機系統(tǒng)或者存儲在各種類型的計算機可讀媒介上時可對至少某些過程進行編程。此外,還可理解,可使用存儲在計算機可讀介質或者媒介上的指導計算機系統(tǒng)執(zhí)行過程步驟的指令來執(zhí)行本文中所描述的某些過程方面。例如,計算機可讀介質可包括存儲器設備,諸如,軟盤、光盤(CD)、數(shù)字式多功能光盤(DVD)、光盤驅動或者硬盤驅動。計算機可讀介質還可包括物理的、虛擬的、永久的、臨時的、半永久的和/或半臨時性的內存存儲器。例如但不限于,“計算機”、“計算機系統(tǒng)”、“主機”、“服務器”或者“處理器”可以是處理器、微處理器、微計算機、服務器、大型機、膝上型電腦、個人數(shù)據(jù)助理(PDA)、無線電子郵件設備、蜂窩電話、智能電話、平板電腦、移動設備、尋呼機、處理器、傳真機、掃描儀或者被配置為經由網絡傳輸和/或接收數(shù)據(jù)的任何其他可編程的設備。本文中所公開的計算機系統(tǒng)和基于計算機的設備可包括用于存儲特定軟件模塊的存儲器或者用于獲得、處理以及傳遞信息的引擎。可以理解,這種存儲器相對于所公開的實施方式的操作可以是內部的或者外部的。存儲器還可包括用于存儲軟件的任何器件,包括硬盤、光盤、軟盤、ROM(只讀存儲器)、RAM(隨機存取存儲器)、PROM(可編程的ROM)、EEPROM(電可擦除PROM)和/或其他計算機可讀介質。本文中所描述的軟件模塊和引擎可通過訪問存儲模塊的存儲器的計算機設備的處理器(或者多個處理器,視情況而定)來執(zhí)行。在本文中所公開的各種實施方式中,單個部件可被多個部件取代,并且多個部件可被單個部件取代,以執(zhí)行給定的功能或者多個功能。除了這種取代將不可操作的情況之外,這種取代落在實施方式的目的范圍內。例如,本文中所描述的任何服務器可被定位成并且配置為用于協(xié)作功能的“服務器農場(serverfarm)”或者其他網絡服務器群(諸如,刀片式服務器)取代??梢哉J識到,服務器農場可用于分配農場的各個部件之間/之中的工作量并且通過利用多個服務器的集體的和協(xié)作的利用可加快計算過程。這種服務器農場例如可采用完成諸如下列任務的負載平衡軟件:用于處理來自不同機器的功率的跟蹤需求、基于網絡需求優(yōu)先化和調度任務和/或在部件發(fā)生故障或操作性降低的情況下提供備份應急功能。計算機系統(tǒng)可包括經由一條或多條數(shù)據(jù)總線與存儲器(例如,RAM或者ROM)通信的一個或多個處理器。數(shù)據(jù)總線可在處理器與存儲器之間攜載電信號。處理器和存儲器可包括引導電流的電路。電路的各個部件(諸如處理器和/或存儲器電路的固態(tài)晶體管)的充電狀態(tài)可在電路操作過程中改變。盡管本文中已經描述了各種實施方式,但顯而易見的是,對于本領域技術人員來說,在實現(xiàn)至少某些優(yōu)點的情況下,可出現(xiàn)對這些實施方式的各種修改、變更以及適配。因此,所公開的實施方式旨在包括在不偏離本文中所闡述的實施方式的范圍的情況下的所有這些修改、變更以及適配。