基于語音的文檔的歷史跟蹤方法和系統(tǒng)的制作方法

文檔序號：2836983閱讀：306來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：：基于語音的文檔的歷史跟蹤方法和系統(tǒng)的制作方法基于語音的文檔的歷史跟蹤方法和系統(tǒng)
技術(shù)領(lǐng)域：
概括地說，本發(fā)明涉及語音識別領(lǐng)域。具體地說，本發(fā)明涉及對文檔的文本段中的改變進(jìn)行歷史跟蹤的方法和系統(tǒng)，具體提供用于在文檔創(chuàng)建工作流程中解決含糊不清的跟蹤基礎(chǔ)設(shè)施。本發(fā)明還涉及計(jì)算機(jī)可讀介質(zhì)，其承載著可通過計(jì)算機(jī)執(zhí)行所述方法的計(jì)算機(jī)程序。
背景技術(shù)：
：現(xiàn)今，語音識別系統(tǒng)在許多產(chǎn)業(yè)內(nèi)變得S益有效并得到很好地運(yùn)用。在語音識別處理中，通過計(jì)算機(jī)把麥克風(fēng)接收到的聲學(xué)信號轉(zhuǎn)換成包括一組字詞的文檔。然后，這些識別出的字詞可以在用于不同目的的各種應(yīng)用中使用。把語音轉(zhuǎn)換成文本的自動語音識別系統(tǒng)需要實(shí)現(xiàn)成本低、效率高的文檔創(chuàng)建和高轉(zhuǎn)寫效率。事實(shí)是文檔隨后仍需要由作者、轉(zhuǎn)寫、質(zhì)保(QA)人員或其他人員手工或口述修改文檔而得以校對或?qū)徍?，從而增加了這些語音識別系統(tǒng)的復(fù)雜性。在過去的一些年里，已經(jīng)提出了一些提高語音識別準(zhǔn)確度的構(gòu)思。舉個(gè)例子，美國專利審請No.2002/0156816公開了向用戶自糾、修正和修改學(xué)習(xí)的方法和裝置。對當(dāng)前文本做出的改變產(chǎn)生變換的文本，并基于此改變，制定規(guī)則，并將其保存起來以供未來使用。已知的是，校正者在編輯由語音識別系統(tǒng)創(chuàng)建的文檔時(shí)必須應(yīng)付這樣的事實(shí)文檔部分可能還未被語音識別器完全識別出來，并且/或者，己經(jīng)經(jīng)過作者校正。在這兩種情況下，書面文檔與作者口述的內(nèi)容不匹配，即語音識別器曲解了口述的語音，故識別出的文本是錯(cuò)誤的，或者，作者通讀了轉(zhuǎn)寫的或識別出的文本，并做了改動，例如，因?yàn)樽髡邔﹃P(guān)于文本內(nèi)容的看法做了校正或改變。在普通的語音識別結(jié)果中，這個(gè)難題還未得到根本解決，或者，通過非文檔部分的元信息進(jìn)行跟蹤，例如通過像"已經(jīng)經(jīng)過作者校正"或"需要校正"之類的文檔屬性。在任何情況下，這都是不令人滿意的，至今己知的語音識別結(jié)果要么是拙劣的，要么就是缺少可靠性。因此，對在基于語音的文檔中做出的改變進(jìn)行跟蹤的改進(jìn)系統(tǒng)是有益的。
發(fā)明內(nèi)容因此，本發(fā)明的目的是提供對在基于語音的文檔中做出的改變進(jìn)行跟蹤的改進(jìn)系統(tǒng)。為了實(shí)現(xiàn)此目的，根據(jù)所附的權(quán)利要求書，提供了用于跟蹤基于語音的文檔的歷史改變的方法和系統(tǒng)。更具體地說，本發(fā)明涉及語音啟動框架，其通過對所有文檔部分自動應(yīng)用語音屬性而支持在文本段(例如字詞、短語)上進(jìn)行跟蹤。這是對文本或語音的各部分的所有改變歷史保持跟蹤的一種新方法，這使得在文檔工作流程的每一級查明哪些步驟產(chǎn)生基于語音的文檔的當(dāng)前文本和語音。校正者問"作者的意思究竟是什么，在文本里寫了什么或者可以聽到什么？"，并且，質(zhì)保人員的問題"誰向文檔中引入了特定差錯(cuò)？"，最后能夠回答這些問題。這意味著，本發(fā)明提供了一種語音識別系統(tǒng)，其能在所有時(shí)間實(shí)現(xiàn)可靠的基于語音的文檔，例如，它可以輕易地提供基于語音的文檔的當(dāng)前真實(shí)文本，或者，當(dāng)在基于語音的文檔中發(fā)現(xiàn)錯(cuò)誤時(shí)，它可以容易地得到校正。根據(jù)本發(fā)明的一方面，提供了一種在電子文檔中進(jìn)行歷史跟蹤校正的方法，其中，電子文檔是基于語音的文檔，其包括根據(jù)語音段識別或轉(zhuǎn)寫的一個(gè)或多個(gè)文本段。語音段由用戶口述，并由語音識別系統(tǒng)中的語音識別器處理成基于語音的文檔的相應(yīng)文本段。所述方法包括以下步驟使基于語音的文檔里的每個(gè)文本段與至少一個(gè)語音屬性相關(guān)聯(lián)，所述至少一個(gè)語音屬性分別包括與所述文本段有關(guān)的信息。所述方法還包括以下步驟在呈現(xiàn)單元上呈現(xiàn)所述基于語音的文檔，檢測在任何一個(gè)所述文本段內(nèi)執(zhí)行的動作，更新與在一個(gè)所述文本段上檢測到的對基于語音的文檔進(jìn)行更新的動作類型有關(guān)的所述至少一個(gè)語音屬性的信息，從而，所述至少一個(gè)7語音屬性的更新信息用于對基于語音的文檔進(jìn)行歷史跟蹤校正。根據(jù)本發(fā)明的另一方面，提供了一種在電子文檔中進(jìn)行歷史跟蹤校正的系統(tǒng)，其中，所述電子文檔是基于語音的文檔，其包括根據(jù)語音段識別或轉(zhuǎn)寫的一個(gè)或多個(gè)文本段。語音段由用戶口述，并由語音識別系統(tǒng)中的語音識別器處理成基于語音的文檔的相應(yīng)文本段。所述系統(tǒng)包括使基于語音的文檔里的每個(gè)文本段與至少一個(gè)語音屬性相關(guān)聯(lián)的模塊。所述至少一個(gè)語音屬性分別包括與所述文本段有關(guān)的信息。所述系統(tǒng)還包括至少一個(gè)呈現(xiàn)單元，用于在其上呈現(xiàn)所述基于語音的文檔；檢測模塊，用于檢測在任何一個(gè)所述文本段內(nèi)執(zhí)行的動作；信息更新模塊，用于更新與在一個(gè)所述文本段上檢測到的對基于語音的文檔進(jìn)行更新的動作有關(guān)的所述語音屬性的信息，從而，利用此系統(tǒng)，所述語音屬性的所述更新信息用于對基于語音的文檔進(jìn)行歷史跟蹤校正。根據(jù)本發(fā)明的另一方面，提供了一種計(jì)算機(jī)可讀介質(zhì)，其承載著由計(jì)算機(jī)處理的計(jì)算機(jī)程序。所述計(jì)算機(jī)程序用于在電子文檔中進(jìn)行歷史跟蹤校正，其中，所述電子文檔是基于語音的文檔，其包括根據(jù)語音段識別或轉(zhuǎn)寫的一個(gè)或多個(gè)文本段。所述計(jì)算機(jī)程序包括使基于語音的文檔里的每個(gè)文本段與至少一個(gè)語音屬性相關(guān)聯(lián)的代碼段，所述語音屬性分別包括與所述文本段有關(guān)的信息。所述計(jì)算機(jī)程序還包括用于呈現(xiàn)的代碼段，在呈現(xiàn)單元上呈現(xiàn)所述基于語音的文檔；用于檢測的代碼段，檢測在任何一個(gè)所述文本段內(nèi)執(zhí)行的動作；用于更新的代碼段，更新與在所述文本段的一個(gè)文本段上檢測到的對基于語音的文檔進(jìn)行更新的動作有關(guān)的所述語音屬性的信息，從而，所述語音屬性的所述更新信息用于對所述基于語音的文檔進(jìn)行歷史跟蹤校正。對基于語音的文檔(例如，在口述文本段或基于語音的文檔里的語音)做出的改變迸行歷史跟蹤是有益的，有益之處是便于自動提供更加清楚的校正信息等等。根據(jù)下面參照附圖描述的本發(fā)明的實(shí)施例，本發(fā)明的這些和其它方面、特征和優(yōu)點(diǎn)將是顯而易見的，其中圖l示出了根據(jù)現(xiàn)有技術(shù)創(chuàng)建語音啟動了的文檔的處理。圖2示出了根據(jù)本發(fā)明的實(shí)施例的系統(tǒng)中的文檔工作流程。具體實(shí)施方式下面主要描述適用于語音識別系統(tǒng)的本發(fā)明的示例，具體主要描述對基于語音的文檔里的文本或音頻做出的校正和修改進(jìn)行歷史跟蹤的方法。但應(yīng)當(dāng)認(rèn)識到，本發(fā)明不限于此應(yīng)用，而可以用于許多其它口述或語音管理系統(tǒng)?；谡Z音的文檔的類型很多，從純文本到表格和模板?；谡Z音的文檔可以在未準(zhǔn)備任何文本或文檔的情況下開始，包括將要輕微做出改變的文本單元?；谡Z音的文檔可以是高度結(jié)構(gòu)化的或非結(jié)構(gòu)化的。結(jié)構(gòu)可以靜態(tài)地進(jìn)行定義，或者，通過一組文檔建立單元即所謂的文檔原語(DP)動態(tài)地進(jìn)行創(chuàng)建。為了簡單起見，將在本說明書的剩余部分里把"基于語音的文檔"稱為"文檔"，其中，可以設(shè)想到文檔用于信息的再現(xiàn)，此信息至少部分地由語音導(dǎo)出。在圖1中示出了實(shí)際工作的公知的文檔創(chuàng)建處理。用戶在沒有特定語音識別知識的情況下定義他的文檔原語(DP)1。DP定義在文檔中包括的區(qū)域類型，其在口述期間用作參考布局文檔。文檔原語可以是任何形式，諸如-純文本；-自動文本(例如文本塊)；-智能域(例如含有自動要素的文本塊，例如來自數(shù)據(jù)庫的人口統(tǒng)計(jì))；-有名域(例如可識別的占位符)；-等等。語音啟動框架3通過提取結(jié)構(gòu)和內(nèi)容信息(例如標(biāo)題、標(biāo)簽等等)，自動把文本文檔轉(zhuǎn)換成語音己啟動的文檔4。語音啟動是把語音識別整合到文檔創(chuàng)建工作流程中的動作。例如，語音已啟動的文檔支持向它進(jìn)行口述、其中的語音導(dǎo)航以及它的校正/修改。如圖1所示，在文檔2中包括用于整個(gè)文檔的語音屬性5，下面將更加詳細(xì)地對此進(jìn)行描述。在圖2中示出了本發(fā)明的實(shí)施例。系統(tǒng)6包括用戶輸入單元7、呈現(xiàn)單元8和語音識別框架9。用戶輸入單元可以是諸如麥克風(fēng)或錄音機(jī)之類的語音輸入單元11或者諸如鍵盤或鼠標(biāo)之類的文本輸入單元10。呈現(xiàn)單元8可以是計(jì)算機(jī)屏幕16或錄音機(jī)和播放器17等等，其中呈現(xiàn)文本或語音結(jié)果。語音識別框架9是普通的框架，其處理結(jié)構(gòu)化的文檔，并處理動態(tài)的文檔改變。在本發(fā)明的實(shí)施例中所用的特征之一是語音識別器12。把本實(shí)施例的語音識別框架9實(shí)現(xiàn)成在計(jì)算機(jī)里的一個(gè)或多個(gè)數(shù)據(jù)處理器和/或數(shù)字信號處理器上運(yùn)行的計(jì)算機(jī)軟件。但是，在其它實(shí)施例中，語音識別(SR)框架9也可以用其它裝置來實(shí)現(xiàn)，例如用編碼硬件來實(shí)現(xiàn)。系統(tǒng)6中的本實(shí)施例的SR框架9還通過對文檔的所有部分應(yīng)用語音屬性而支持在文本段上進(jìn)行跟蹤。這是一種對在文檔工作流程的每一級上做出的所有改變保持進(jìn)行跟蹤的方法，并查明哪些歷史步驟產(chǎn)生語音文檔13的當(dāng)前文本和語音。一組語音屬性14可用于質(zhì)量保證用途。措詞"文檔的語音屬性"是指文檔或文檔區(qū)域里的所有文本段的所有語音相關(guān)屬性，例如，誰口述和/或校正了特定部分、哪個(gè)語境與文檔的哪個(gè)部分相關(guān)聯(lián)等等。語音屬性可以是-口述范圍(DA)，即，最初的純文本；-DA里的識別置信度語音識別器使識別置信度與至少一個(gè)或一組識別出的字詞相關(guān)聯(lián)，以呈現(xiàn)出識別運(yùn)作良好的概率。舉例來說，如果置信度較低，則有可能需要進(jìn)行校正的特定概率，其比識別置信度較高時(shí)要高；-一定范圍內(nèi)檢測到的主題語音識別的特定作用是使主題(如普通注釋、病人特定信息、診斷信息或特定語境的任何特定子語境)與一組或一定范圍的字詞相關(guān)聯(lián)。相關(guān)聯(lián)的主題信息可以用作附加信息，例如用于確認(rèn)用途；-在DA內(nèi)修改了哪些部分如果校正者可看見作者修改了哪個(gè)部分，則指示出語音或經(jīng)修改的文本是否可能是有效的。如果作者或質(zhì)保人員檢査校正的文本，則修改信息對于他們而言可能是很好的指示，還指示出位于DA中的經(jīng)修改的部分；-理想地替換了語音的哪些區(qū)域理想的指示是校正的文本是相關(guān)的而非基礎(chǔ)語音，因?yàn)楫?dāng)前文本以前已經(jīng)經(jīng)過檢查和校正；-被聽到的和未被聽到的文檔部分是哪些例如，此信息可以用于幫助轉(zhuǎn)寫員對文檔中遺漏的文本段進(jìn)行定位，遺漏的文本段可以作為音頻數(shù)據(jù)段而獲得，但還未被轉(zhuǎn)寫成文檔的文本段；-校正者接觸/聽到哪些部分此信息可以用于指示遺漏的口述文本段；-哪些部分是包含嚴(yán)重口述或校正問題的候選者，例如，基于置信度值，包含數(shù)次修改，由作者和由校正者經(jīng)過若干次校正，等等；-特定部分于何時(shí)得以校正；-誰校正了特定部分；或者_(dá)哪個(gè)部分經(jīng)過了作者校正。文本或語音是文檔的主要信息源。例如，基于識別和校正屬性的音頻過濾器回放校正者還未聽到的部分。產(chǎn)生語音文檔的示例性處理如下用戶通過使用用戶輸入單元口述11。口述可以是清楚的一般文本口述；受限主題、簡短文本的口述；選定的關(guān)鍵字標(biāo)識符、導(dǎo)航指令、選擇指令和/或簡短關(guān)鍵的(自動文本)激活指令的口述。口述文本/文件進(jìn)入系統(tǒng)6的語音啟動框架9，其中，語音識別器12對口述材料進(jìn)行處理，并生成包括第一語音文檔13的第一語音識別結(jié)果18，其中，第一語音文檔13具有與第一語音文檔里的每個(gè)文本段有關(guān)的語音屬性14。把結(jié)果插入到諸如數(shù)據(jù)庫之類的樹結(jié)果表示19中。再把語音文檔轉(zhuǎn)換成文本文檔16，將其呈現(xiàn)在諸如計(jì)算機(jī)屏幕、播放器之類的呈現(xiàn)單元8上。然后，文本文檔16可以由一個(gè)或多個(gè)用戶通過直接文本輸入15a或通過新的示例性音頻口述15b而改變。每個(gè)改變產(chǎn)生新的語音識別結(jié)果，其包括新的語音文檔和相關(guān)的新的語音屬性。將新的結(jié)果插入到樹結(jié)果表示中，并使其鏈接到以前的結(jié)果。當(dāng)發(fā)生改變時(shí)，不斷地更新文本文檔16?？梢赃M(jìn)行附加的修改，直到把所需要的文檔最后定下來為止。最終的文檔包括轉(zhuǎn)寫文本和相關(guān)語音屬性，它們呈現(xiàn)出每個(gè)文本/音頻輸入的全部歷史，已經(jīng)將其執(zhí)行到了文檔中。在表1中示出了可以如何執(zhí)行改變處理的示例。表l<formula>formulaseeoriginaldocumentpage11</formula><table>tableseeoriginaldocumentpage12</column></row><table>在表1所示的示例中，示出了一對動作以及文本段作為示例，并示出了在普通口述過程期間可能出現(xiàn)的一對語音屬性。語音屬性"誰"表示誰做出改變，"何時(shí)"表示何時(shí)執(zhí)行改變的數(shù)據(jù)，"什么"準(zhǔn)確地表示改變是什么，例如，把"whats"變成"what's"。處理從例如醫(yī)生(用戶1)執(zhí)行口述開始，語音識別引擎將口述轉(zhuǎn)換成語音識別結(jié)果(SR結(jié)果)。此結(jié)果包括與語音文檔1有關(guān)的三個(gè)語音屬性，把它們插入在樹結(jié)果表示(TR表示)中。語音屬性誰1是"用戶1"，何時(shí)1是"050822"，什么1是"語境1"。轉(zhuǎn)寫員(用戶2)讀取文本文檔，通過鍵入來校正錯(cuò)誤，并生成新的SR結(jié)果。此結(jié)果包括語音文檔2和相關(guān)的語音屬性，誰2是"用戶2"，何時(shí)2是"050901"，什么2是"語境2"。將新的SR結(jié)果插入在TR表示中，并使其鏈接到先前的結(jié)果。醫(yī)生通讀校正過的文本，并通過語音(口述)進(jìn)一步校正錯(cuò)誤。語音識別引擎轉(zhuǎn)換口述，并產(chǎn)生新的SR結(jié)果。此結(jié)果包括與新的語音屬性有關(guān)的語音文檔3，誰3是"用戶1"，何時(shí)3是"050902"，什么3是"語境3"。錄音打字員(用戶2)再次讀取文本文檔，并通過直接鍵入到相關(guān)的文本文檔而進(jìn)一步校正文本。產(chǎn)生新的SR結(jié)果。此結(jié)果包括與新的語音屬性有關(guān)的語音文檔4，變成"用戶2"的誰4，變成"050910"的何時(shí)4，變成"語境4"的什么4。可以通過不同的方式使文檔的各部分的語音屬性可視化。向終端用戶呈現(xiàn)追蹤歷史的一種方法是給文本著色，例如，用戶1口述的文本為紅色，用戶1鍵入的文本為綠色，等等。附加的信息可以經(jīng)由工具提示而呈現(xiàn)出來，即選擇某一文本、右鼠標(biāo)按鈕點(diǎn)擊，語境菜單出現(xiàn)并呈現(xiàn)所選文本的改變歷史。本發(fā)明可以用包括硬件、軟件、固件或其組合的任何適當(dāng)形式來實(shí)現(xiàn)。但優(yōu)選情況下，本發(fā)明實(shí)現(xiàn)成在一個(gè)或多個(gè)數(shù)據(jù)處理器和/或數(shù)字信號處理器上運(yùn)行的計(jì)算機(jī)軟件。本發(fā)明的實(shí)施例的元件和部件可以用任何適當(dāng)?shù)姆椒ㄎ锢硇缘?、功能性地和邏輯性地來?shí)現(xiàn)。實(shí)際上，功能可以在單個(gè)單元、多個(gè)單元中實(shí)現(xiàn)，或者，實(shí)現(xiàn)成其它功能單元的一部分。同樣，本發(fā)明可以在單個(gè)單元中實(shí)現(xiàn)，或者，可以在不同單元和處理器之間物理性地和功能性地分布。雖然上面圍繞著特定實(shí)施例描述了本發(fā)明，但本發(fā)明并不限于這里列明的特定形式。而且，本發(fā)明僅由所附的權(quán)利要求書加以界定，在這些所附的權(quán)利要求的保護(hù)范圍內(nèi)，除以上具體所述之外的其它實(shí)施例同樣是可行的，例如，與上述不同的語音屬性。在權(quán)利要求中，詞語"包括/包含"并不排除存在其它部件或步驟。此外，雖然是單獨(dú)列出的，但多個(gè)裝置、部件或方法步驟可以由例如單個(gè)單元或處理器來實(shí)現(xiàn)。另外，雖然不同權(quán)利要求可包括其各自的特征，但這些特征也有可能會被優(yōu)選地組合起來，包括在不同權(quán)利要求中的特征并不意味著它們的組合是不可行的和/或無益的。還有，單個(gè)參考并不排除有多個(gè)。詞語"一個(gè)"、"一種"、"第一"、"第二"等并不排除有多個(gè)。權(quán)利要求中的附圖標(biāo)記僅僅是出于清楚起見，而不應(yīng)將其解釋為以任何方式對權(quán)利要求的保護(hù)范圍構(gòu)成限制。權(quán)利要求1、一種對電子文檔中的校正進(jìn)行歷史跟蹤的方法，其中，所述電子文檔是基于語音的文檔，其包括根據(jù)語音段識別或轉(zhuǎn)寫出來的一個(gè)或多個(gè)文本段，其中，所述語音段由用戶口述，并由語音識別系統(tǒng)中的語音識別器處理成所述基于語音的文檔的相應(yīng)文本段，所述方法包括使所述基于語音的文檔里的每個(gè)文本段與至少一個(gè)語音屬性(14)相關(guān)聯(lián)，所述語音屬性(14)分別包括與所述文本段有關(guān)的信息；在呈現(xiàn)單元(8)上呈現(xiàn)所述基于語音的文檔；檢測在任何一個(gè)所述文本段內(nèi)執(zhí)行的動作；更新與在一個(gè)所述文本段上檢測到的對所述基于語音的文檔進(jìn)行更新的動作類型有關(guān)的所述語音屬性(14)的信息，從而，用所述語音屬性(14)的所述更新信息對所述基于語音的文檔的校正進(jìn)行歷史跟蹤。2、根據(jù)權(quán)利要求1所述的方法，其中，使所述基于語音的文檔里的每個(gè)文本段與至少一個(gè)語音屬性相關(guān)聯(lián)是自動執(zhí)行的。3、根據(jù)權(quán)利要求1所述的方法，其中，檢測在任何一個(gè)所述文本段內(nèi)執(zhí)行的動作包括檢測與該文本段或與該文本段的至少一部分相對應(yīng)的語音段內(nèi)的改變。4、根據(jù)權(quán)利要求1所述的方法，其中，更新所述語音屬性的信息包括:在樹結(jié)果表示里添加與在一個(gè)所述文本段上檢測到的動作類型有關(guān)的第二語音屬性。5、根據(jù)權(quán)利要求1所述的方法，其中，所述動作是通過口述改變至少一個(gè)所述文本段，并且，所述語音屬性的所述更新晚于通過所述語音識別器對所述口述校正進(jìn)行處理；把所述校正添加在所述語音文檔里執(zhí)行所述動作的基本上相同的位置。6、根據(jù)權(quán)利要求1所述的方法，其中，所述動作是通過使用輸入單元向與呈現(xiàn)在所述呈現(xiàn)單元(8)上的所述語音文檔相對應(yīng)的文本文檔中進(jìn)行鍵入而校正至少一個(gè)所述文本段。7、根據(jù)權(quán)利要求1所述的方法，其中，所述動作是由與所述用戶不同的用戶執(zhí)行的。8、根據(jù)權(quán)利要求1所述的方法，其中，所述方法執(zhí)行多次，并且還包括把與在一個(gè)所述文本段上檢測到的動作有關(guān)的所述語音屬性(14)的所述信息添加到存儲在所述基于語音的文檔里的這種先前信息中，以更新所述基于語音的文檔。9、一種對電子文檔中的校正進(jìn)行歷史跟蹤的系統(tǒng)，其中，所述電子文檔是基于語音的文檔，其包括根據(jù)語音段識別或轉(zhuǎn)寫出來的一個(gè)或多個(gè)文本段，其中，所述語音段由用戶口述，并由語音識別系統(tǒng)中的語音識別器處理成所述基于語音的文檔的相應(yīng)文本段，所述系統(tǒng)包括使所述基于語音的文檔里的每個(gè)文本段與至少一個(gè)語音屬性(14)相關(guān)聯(lián)的模塊，所述語音屬性(14)分別包括與所述文本段有關(guān)的信息；至少一個(gè)呈現(xiàn)單元(8)，用于呈現(xiàn)所述基于語音的文檔；檢測模塊，用于檢測在任何一個(gè)所述文本段文本段內(nèi)執(zhí)行的動作；信息更新模塊，用于更新與在一個(gè)所述文本段上檢測到的對所述基于語音的文檔進(jìn)行更新的動作類型有關(guān)的所述語音屬性(14)的信息，從而，利用所述系統(tǒng)，將所述語音屬性(14)的所述更新信息用于對所述基于語音的文檔的校正進(jìn)行歷史跟蹤。10、根據(jù)權(quán)利要求9所述的系統(tǒng)，其中，所述基于語音的文檔的結(jié)構(gòu)是由一組文檔建立單元靜態(tài)地定義的。11、根據(jù)權(quán)利要求9所述的系統(tǒng)，其中，所述基于語音的文檔的結(jié)構(gòu)是由一組文檔建立單元?jiǎng)討B(tài)地定義的。12、根據(jù)權(quán)利要求10或11所述的系統(tǒng)，其中，所述文檔建立單元是純文本、文本塊或模板，例如智能域或有名域。13、根據(jù)權(quán)利要求9所述的系統(tǒng)，其中，所述語音屬性涉及所述基于語音的文檔的哪個(gè)部分改變了、誰改變了所述部分、通過哪些方法改變了所述部分和/或何時(shí)改變了所述部分。14、根據(jù)權(quán)利要求9所述的系統(tǒng)，其中，所述語音屬性是口述范圍、識別置信度、一定范圍內(nèi)檢測到的主題、在所述口述范圍里改變了哪個(gè)部分、替換了所述基于語音的文檔的哪個(gè)區(qū)域、聽到或接觸了所述語音文檔的哪些部分。15、根據(jù)權(quán)利要求9所述的系統(tǒng)，其中，所述系統(tǒng)包括基于識別和校正屬性的音頻過濾器。16、一種計(jì)算機(jī)可讀介質(zhì)，上面承載著供計(jì)算機(jī)處理的計(jì)算機(jī)程序，所述計(jì)算機(jī)程序用于對電子文檔中的校正進(jìn)行歷史跟蹤，其中，所述電子文檔是基于語音的文檔，其包括根據(jù)語音段識別或轉(zhuǎn)寫的一個(gè)或多個(gè)文本段，其中，所述語音段由第一用戶口述，并由語音識別系統(tǒng)中的語音識別器處理成所述基于語音的文檔的相應(yīng)文本段，所述計(jì)算機(jī)程序包括使所述基于語音的文檔里的每個(gè)文本段與至少一個(gè)語音屬性(14)相關(guān)聯(lián)的代碼段，所述語音屬性(14)分別包括與所述文本段有關(guān)的信息；用于呈現(xiàn)的代碼段，在呈現(xiàn)單元(8)上呈現(xiàn)所述基于語音的文檔；用于檢測的代碼段，檢測在任何一個(gè)所述文本段內(nèi)執(zhí)行的動作；用于更新的代碼段，更新與在一個(gè)所述文本段上檢測到的對所述基于語音的文檔進(jìn)行更新的動作類型有關(guān)的所述語音屬性(14)的信息，從而，把所述語音屬性(14)的所述更新信息用于對所述基于語音的文檔的校正進(jìn)行歷史跟蹤。全文摘要本發(fā)明公開了對基于語音的文檔里的校正進(jìn)行歷史跟蹤的方法和系統(tǒng)。所述基于語音的文檔包括根據(jù)語音段識別或轉(zhuǎn)寫的一個(gè)或多個(gè)文本段，其中，所述語音段由用戶口述，并由語音識別系統(tǒng)中的語音識別器處理成所述基于語音的文檔的相應(yīng)文本段。所述方法包括使所述基于語音的文檔里的每個(gè)文本段與至少一個(gè)語音屬性(14)相關(guān)聯(lián)，所述語音屬性(14)分別包括與所述文本段有關(guān)的信息；在呈現(xiàn)單元(8)上呈現(xiàn)所述基于語音的文檔；檢測在任何一個(gè)所述文本段內(nèi)執(zhí)行的動作；更新與在所述文本段的一個(gè)文本段上檢測到的對基于語音的文檔進(jìn)行更新的動作類型有關(guān)的所述語音屬性(14)的信息，從而，所述語音屬性(14)的所述更新信息用于對所述基于語音的文檔的校正進(jìn)行歷史跟蹤。文檔編號G10L15/18GK101326533SQ200680046085公開日2008年12月17日申請日期2006年11月10日優(yōu)先權(quán)日2005年12月8日發(fā)明者G·格羅鮑爾,M·帕保伊申請人:皇家飛利浦電子股份有限公司

完整全部詳細(xì)技術(shù)資料下載