專利名稱:口頭發(fā)音檢索所用的基于格點(diǎn)搜索的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及口頭文檔的檢索,更確切地說(shuō),涉及進(jìn)行口頭發(fā)音檢索所用的基于格點(diǎn)搜索的系統(tǒng)和方法。
背景技術(shù):
在最近十年對(duì)大量口頭通信編制索引、歸檔、搜索和瀏覽所用的自動(dòng)系統(tǒng)已經(jīng)變?yōu)楝F(xiàn)實(shí)。大多數(shù)此類系統(tǒng)使用自動(dòng)語(yǔ)音識(shí)別(ASR)組件把語(yǔ)音轉(zhuǎn)換為文本,然后用作標(biāo)準(zhǔn)的基于文本的信息檢索(IR)組件的輸入。如果語(yǔ)音識(shí)別輸出大部分正確,或者所述文檔足夠長(zhǎng)所以查詢術(shù)語(yǔ)的某些出現(xiàn)被正確識(shí)別,這種策略的效果令人滿意。這個(gè)領(lǐng)域中的大多數(shù)研究集中在廣播新聞型口頭文檔的檢索,其中語(yǔ)音相對(duì)純凈而且文檔相對(duì)較長(zhǎng)。此外,有可能發(fā)現(xiàn)大量?jī)?nèi)容類似的文本以便建立更好的語(yǔ)言模型,以及通過(guò)使用類似的文檔增強(qiáng)檢索。
不過(guò),如果需要口頭文檔檢索但是不具有純凈語(yǔ)音的有利條件,信息檢索變得更加困難。例如,要是某人要記錄電話會(huì)議,然后希望進(jìn)行所述會(huì)議若干部分的搜索即信息檢索,問(wèn)題就變得更加困難。這是由于以下事實(shí)電話會(huì)議很可能包含多個(gè)音頻短片段,它們可能包括許多錯(cuò)字且冗余度低。另外,與新聞廣播相反,在電話會(huì)議中可能有許多發(fā)言者,每個(gè)人都為整體口頭文檔提供若干語(yǔ)音小片段。
所以,如果任務(wù)是檢索錯(cuò)字率(WER)可能高達(dá)50%之處的語(yǔ)音短片段,對(duì)廣播新聞使用同樣的方法不會(huì)提供滿意的結(jié)果。這正是電話會(huì)議語(yǔ)音的情況,其中任務(wù)就是發(fā)現(xiàn)參與者是否以及何時(shí)發(fā)出特定短語(yǔ)。
業(yè)內(nèi)需要的技術(shù)是對(duì)電話交談或電話會(huì)議等產(chǎn)生的口頭文檔提供改進(jìn)的口頭文檔檢索系統(tǒng)。
發(fā)明內(nèi)容
在以下的說(shuō)明中,將會(huì)闡述本發(fā)明另外的特性和優(yōu)點(diǎn),其中一部分從說(shuō)明中顯而易見(jiàn),或者可以從本發(fā)明的實(shí)踐中學(xué)會(huì)。利用附帶的權(quán)利要求書(shū)中具體指出的若干裝置及組合,就可以實(shí)現(xiàn)本發(fā)明的特性,獲得本發(fā)明的優(yōu)點(diǎn)。從以下的說(shuō)明和附帶的權(quán)利要求書(shū),本發(fā)明的這些和其他特性將會(huì)顯現(xiàn)得更加全面,或者說(shuō)可以由本文闡述的、本發(fā)明的實(shí)踐而學(xué)會(huì)。
本文公開(kāi)的是口頭發(fā)音檢索所用的編制索引過(guò)程,它面對(duì)若干格點(diǎn)而不僅僅是單一最優(yōu)的文本。對(duì)于錯(cuò)字率不良且冗余度低的任務(wù),這個(gè)過(guò)程與單一最優(yōu)檢索相比,能夠使F得分改進(jìn)不止5分。表達(dá)方式靈活,所以字格點(diǎn)和音素格點(diǎn)都可以表達(dá),在對(duì)包含著詞匯表以外(OOV)字的短語(yǔ)進(jìn)行搜索時(shí),后者對(duì)改進(jìn)效能很重要。
本發(fā)明包括系統(tǒng)、方法和計(jì)算機(jī)可讀的介質(zhì),以便提供口頭發(fā)音檢索所用的、基于格點(diǎn)的搜索。優(yōu)選情況下,如本文所稱的口頭文檔是具有中等錯(cuò)字率的文檔,比如電話交談或電話會(huì)議。本方法包括把與口頭文檔相關(guān)聯(lián)的語(yǔ)音轉(zhuǎn)換為格點(diǎn)表示,以及對(duì)語(yǔ)音的格點(diǎn)表示編制索引。典型情況下,這些步驟離線進(jìn)行。收到用戶發(fā)出的查詢后,本方法進(jìn)一步包括搜索編制了索引的語(yǔ)音格點(diǎn)表示,以及返回從所述口頭文檔檢索的與用戶查詢匹配的音頻片段。
附圖簡(jiǎn)要說(shuō)明為了介紹能夠獲得本發(fā)明的上述和其他優(yōu)點(diǎn)和特性的方式,通過(guò)參考附圖中展示的若干特定實(shí)施例,對(duì)以上簡(jiǎn)單介紹的本發(fā)明將提供更加具體的說(shuō)明。理解了這些附圖僅僅描繪了本發(fā)明的典型實(shí)施例所以不視為限制其范圍,將通過(guò)使用附圖更具體和詳細(xì)地介紹和講解本發(fā)明,其中
圖1展示了根據(jù)本發(fā)明一個(gè)實(shí)施例的系統(tǒng);
圖2A展示本發(fā)明的一個(gè)方法實(shí)施例;圖2B展示了根據(jù)本發(fā)明一個(gè)實(shí)施例的另一種方法;圖3顯示了對(duì)電話會(huì)議使用字格點(diǎn)的精確恢復(fù)所涉及的實(shí)驗(yàn)結(jié)果;圖4顯示了對(duì)電話會(huì)議字格點(diǎn)與字/音素混合策略的對(duì)比;圖5顯示了對(duì)電話會(huì)議使用字/音素混合策略時(shí)最小發(fā)音長(zhǎng)度的效應(yīng);圖6顯示了對(duì)于電話交談多種識(shí)別詞匯表規(guī)模的對(duì)比;圖7顯示了多種技術(shù)在不同任務(wù)中的精度與恢復(fù)對(duì)比。
具體實(shí)施例方式
通過(guò)本發(fā)明多種實(shí)施例的以下說(shuō)明,可以理解本發(fā)明。本發(fā)明把音頻片段檢索技術(shù)擴(kuò)展到比如電話交談和電話會(huì)議應(yīng)用的情形。任務(wù)是在口頭交談中定位查詢的出現(xiàn)處以助于瀏覽。方式涉及口頭文檔檢索和字定位。在一種情況下,所述過(guò)程包括識(shí)別音頻短片段,它可以稱為一大組音頻片段之內(nèi)的“文檔”。同樣,每個(gè)音頻片段都可以稱為一個(gè)文檔。
盡管對(duì)于中等(~20%)錯(cuò)字率的任務(wù),使用最優(yōu)的ASR假設(shè)也能夠獲得合理的檢索效能,但是更高(40-50%)錯(cuò)字率的任務(wù)需要使用多個(gè)ASR假設(shè)。本發(fā)明的一個(gè)方面是增加若干ASR格點(diǎn),它們使系統(tǒng)對(duì)識(shí)別錯(cuò)誤更加穩(wěn)健。字格點(diǎn)可以一般地稱為若干字和它們之間鏈接的有向圖,它們能夠?qū)Υ罅靠赡芫渥舆M(jìn)行簡(jiǎn)潔的編碼。每個(gè)字都以其觀察似然度增大,所以通過(guò)所述格點(diǎn)的任何具體路徑都能夠與從其他語(yǔ)言模型獲得的先驗(yàn)概率相結(jié)合。典型情況下,在字格點(diǎn)中也提供了計(jì)時(shí)信息。參見(jiàn)如Huang,Acero and Hon,Spoken LanguageProcessing,Prentice Hall PTR,2001,664-673頁(yè)。本領(lǐng)域的技術(shù)人員進(jìn)一步理解字格點(diǎn)的細(xì)節(jié)和結(jié)構(gòu),所以本文不提供更多的細(xì)節(jié)。
幾乎所有ASR系統(tǒng)都具有封閉的詞匯表,它們涉及具體的領(lǐng)域即主題內(nèi)容。這種限制來(lái)自運(yùn)行時(shí)的需求以及訓(xùn)練ASR系統(tǒng)的語(yǔ)言模型時(shí)所用的數(shù)據(jù)量有限。典型情況下識(shí)別詞匯表取為語(yǔ)言模型訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的字。所述詞匯表常常進(jìn)一步縮減為僅僅包括所述語(yǔ)料庫(kù)中頻度最高字。不在這個(gè)封閉詞匯表中的字——所述詞匯表以外(OOV)的字——將不被所述ASR系統(tǒng)識(shí)別,變成識(shí)別誤差。使用語(yǔ)音學(xué)研究成果有助于檢索OOV字。
圖1展示了本發(fā)明裝置實(shí)施例的基本系統(tǒng)10。向ASR模塊14提供語(yǔ)音12。所述語(yǔ)音12可以產(chǎn)生自電話交談、電話會(huì)議或者具有高錯(cuò)字率的任何其他來(lái)源。盡管本發(fā)明不具體要求,但是應(yīng)當(dāng)理解,所提供的語(yǔ)音12的錯(cuò)字率高于從受到更多控制的來(lái)源獲得的語(yǔ)音,比如廣播新聞。ASR模塊14把語(yǔ)音轉(zhuǎn)換為所述語(yǔ)音的格點(diǎn)表示。ASR模塊14也提供格點(diǎn)之內(nèi)的或者與格點(diǎn)分開(kāi)存儲(chǔ)的計(jì)時(shí)信息入口。索引模塊16為了高效檢索而對(duì)格點(diǎn)表示編制索引。優(yōu)選情況下,把語(yǔ)音轉(zhuǎn)換為格點(diǎn)表示和對(duì)所述格點(diǎn)編制索引的這兩個(gè)步驟離線進(jìn)行。搜索/匹配模塊18從用戶22接收語(yǔ)音或其他類型的輸入20,它表示一項(xiàng)查詢。所述搜索和匹配模塊18接收所述查詢,并且搜索所述編制了索引的格點(diǎn)表示,定位匹配的音頻片段24,將它們返回給所述用戶。
在許多情形中都可以使用圖1所示的基本系統(tǒng)。例如,所述模塊可以在單一的計(jì)算機(jī)服務(wù)器上或一個(gè)分布式網(wǎng)絡(luò)上編程和運(yùn)行。對(duì)所述模塊編碼并不需要特定的編程語(yǔ)言。所述語(yǔ)音輸入設(shè)備20可以是電話或者能夠從用戶22接收語(yǔ)音或其他多模態(tài)輸入的其他計(jì)算設(shè)備。在本發(fā)明的多種組件之間可以有多種無(wú)線的和有線的連接。
作為本發(fā)明益處的實(shí)例,假設(shè)從建筑隊(duì)、建筑師和承包商有關(guān)將要建筑之房屋細(xì)節(jié)的電話會(huì)議向ASR模塊14提供語(yǔ)音12,會(huì)議除了其他議題以外,還包括修改計(jì)劃,增加一個(gè)家庭影院房間。進(jìn)一步假設(shè)購(gòu)房者需要收到交談中所述家庭影院部分的細(xì)節(jié)。電話會(huì)議結(jié)束并經(jīng)過(guò)根據(jù)本發(fā)明的處理之后,口頭文檔經(jīng)過(guò)編碼并且可檢索,人員22就可以通過(guò)計(jì)算設(shè)備來(lái)電,對(duì)與所述家庭影院相關(guān)聯(lián)的音頻片段提交請(qǐng)求。所述查詢(它可以是語(yǔ)音、文本或語(yǔ)音和文本的組合或者其他輸入模態(tài))經(jīng)過(guò)處理并且用于識(shí)別、檢索和向所述用戶22返回所述家庭影院有關(guān)的音頻部分。
本發(fā)明過(guò)程的多種特性都有優(yōu)選的方式。例如,優(yōu)選情況下所述ASR模塊14使用一流的基于HMM的大詞匯表連續(xù)語(yǔ)音識(shí)別(LVCSR)系統(tǒng)。以ASR所用的音響模型優(yōu)選情況下包括決策樹(shù)狀態(tài)集束的三音素(triphones),輸出分布為高斯分布的混合。語(yǔ)言模型優(yōu)選情況下是縮減的補(bǔ)償三字母組(trigram)統(tǒng)計(jì)模型。發(fā)音辭典優(yōu)選情況下包含少數(shù)幾種替代發(fā)音。不在基準(zhǔn)發(fā)音辭典(包括OOV查詢字)中的發(fā)音優(yōu)選情況下使用文本-語(yǔ)音(TTS)前端(未顯示)產(chǎn)生,它產(chǎn)生文本的語(yǔ)音表示。所述TTS前端能夠產(chǎn)生多種發(fā)音。所述ASR系統(tǒng)可以是也可以不是單步系統(tǒng)。識(shí)別網(wǎng)絡(luò)優(yōu)選情況下表示為加權(quán)的有限狀態(tài)機(jī)(FSM)。應(yīng)當(dāng)承認(rèn),上述方法表示了本發(fā)明實(shí)踐的最優(yōu)模式。也有現(xiàn)有的和預(yù)期發(fā)明范圍之內(nèi)的替代方式為本領(lǐng)域的技術(shù)人員所公知。
ASR模塊14的輸出優(yōu)選情況下可以表示為FSM,也可以采用最優(yōu)假設(shè)串或替代假設(shè)格點(diǎn)的形式。FSM的弧上標(biāo)簽可以是字,也可以是音素,使用FSM合成不難完成這二者之間的轉(zhuǎn)換?;∩系某杀臼撬迫欢鹊呢?fù)對(duì)數(shù)。另外,輸出中也能夠包含計(jì)時(shí)信息。
圖2A展示本發(fā)明的方法實(shí)施例之一。這涉及檢索口頭文檔的一種方法,所述方法包括把與口頭文檔相關(guān)聯(lián)的語(yǔ)音轉(zhuǎn)換為格點(diǎn)表示(202),以及對(duì)格點(diǎn)表示編制索引(204)。收到用戶發(fā)出的查詢后,本方法包括搜索編制了索引的語(yǔ)音格點(diǎn)表示(206),以及返回來(lái)自所述口頭文檔的與用戶查詢匹配的音頻片段(208)。
在格點(diǎn)的情況下,本發(fā)明的一個(gè)方面涉及存儲(chǔ)一組索引,每個(gè)弧標(biāo)簽(字或音素)l對(duì)應(yīng)一個(gè),它記錄著格點(diǎn)號(hào)L[a]、每個(gè)格點(diǎn)中以l標(biāo)注的每條弧a的輸入狀態(tài)k[a],一起的還有群體趨向(mass leading)該狀態(tài)的概率f(k[a])、弧本身的概率p(a|k[a])和下一個(gè)狀態(tài)的索引。為了從表示語(yǔ)音語(yǔ)料庫(kù)的一組格點(diǎn)中檢索單一標(biāo)簽,只要按所述標(biāo)簽索引檢索每個(gè)格點(diǎn)中的所有弧。所述格點(diǎn)可以首先由推進(jìn)權(quán)重歸一化,所以從所述弧趨向最終狀態(tài)的全部路徑的組的概率為1。推進(jìn)權(quán)重歸一化后,對(duì)于給定的弧a,包含該弧的全部路徑的組的概率由下式給出p(a)=ΣπϵL:aϵπp(π)=f(k[a])p(a|k[a])]]>換言之,趨向該弧之全部路徑的概率乘以所述弧本身的概率。對(duì)于格點(diǎn)L,使用所述索引I(l)中存儲(chǔ)的信息對(duì)給定標(biāo)簽l構(gòu)建“總數(shù)”如下C(l|L)=ΣπϵLp(π)C(l|π)]]>=ΣπϵL(p(π)Σaϵπδ(a,l))]]>=ΣaϵL(δ(a,l)ΣπϵL:aϵπp(π))]]>=Σaϵl(l):L[a]=Lp(a)]]>=Σaϵl(l):L9a)=Lf(k[a]p(a|k[a])]]>其中C(l|π)為在路徑π見(jiàn)到l的次數(shù),如果弧a具有標(biāo)簽l,δ(a,l)為1,否則為0。檢索能夠設(shè)定閾值,所以不返回低于特定總數(shù)的匹配。
為了檢索多標(biāo)簽表達(dá)(如多字短語(yǔ))w1w2…wn,系統(tǒng)搜索表達(dá)中的每個(gè)標(biāo)簽,然后對(duì)于每個(gè)(wl,wl+1),使wl的輸出狀態(tài)與匹配的Wl+1的輸入狀態(tài)結(jié)合;系統(tǒng)以這種方式僅僅檢索每個(gè)格點(diǎn)中符合整個(gè)多標(biāo)簽表達(dá)的那些路徑片段。每次匹配的概率都定義為f(k[a1])p(a1|k[a1])p(a2|k[a2])…p(an|k[an]),其中p(ai|k[ai])為所述表達(dá)中從弧a1算起第i段弧的概率。所述格點(diǎn)的全體“總數(shù)”按以上定義計(jì)算。
注意,在每個(gè)格點(diǎn)都是不加權(quán)單一路徑——即一串標(biāo)簽——的有限情況下,上述方案退化為標(biāo)準(zhǔn)的逆索引。為了應(yīng)對(duì)包含OOV字的查詢,本發(fā)明使用亞字單位編制索引。一種亞字成分可以是音素。有兩種方法用于獲得輸入發(fā)音的語(yǔ)音表示。
首先,在識(shí)別單位是音素時(shí)使用ASR系統(tǒng)識(shí)別音素。實(shí)現(xiàn)這一點(diǎn)是通過(guò)使用音素級(jí)別的語(yǔ)言模型而不是基準(zhǔn)ASR系統(tǒng)中使用的字級(jí)別語(yǔ)言模型。其次,另一個(gè)方面是把所述發(fā)音的字級(jí)別表示轉(zhuǎn)換為音素級(jí)別表達(dá)。實(shí)現(xiàn)這一點(diǎn)是通過(guò)使用基準(zhǔn)ASR系統(tǒng)以及將所述輸出中的每個(gè)字按照音素由其發(fā)音取代。
音素識(shí)別可以不如字識(shí)別準(zhǔn)確。另一方面,第二種方法能夠僅僅產(chǎn)生音素串,它們是詞匯表中字串之發(fā)音的子串。為了改進(jìn)這些方法中每一種的限制,一種替代方案是使用OOV字檢測(cè)所用的混合語(yǔ)言模型。
為了檢索,每個(gè)查詢字都通過(guò)使用其發(fā)音轉(zhuǎn)換為音素串。然后可以對(duì)每個(gè)音素串搜索音素索引。注意,這種方法將產(chǎn)生許多假警報(bào),尤其是對(duì)于短的查詢字,它們很可能是長(zhǎng)字的子串。為了控制這種情況,可以采用最小發(fā)音長(zhǎng)度的限制。由于大多數(shù)短字在詞匯表中,這種限制對(duì)恢復(fù)影響不大。
本發(fā)明的另一個(gè)方面顯示在圖2B中,用于有字索引和亞字索引的情形。這個(gè)方面為了改進(jìn)所述過(guò)程,兩種索引都采用。收到用戶查詢后(220),搜索字索引(222)和亞字索引(224)都包括在本方法中,并且結(jié)合所述結(jié)果以從口頭文檔中檢索與用戶查詢匹配的音頻片段(226)。
作為替代,收到用戶查詢后(220),本方法也可以包括對(duì)詞匯表內(nèi)查詢搜索字索引(228),對(duì)OOV查詢搜索亞字索引(230)。再一種替代是收到用戶查詢后(220),本方法包括搜索字索引,如果沒(méi)有結(jié)果返回,則搜索亞字索引(232)。
在第一種情況下,如果索引是從ASR最優(yōu)假設(shè)獲得,那么結(jié)果的結(jié)合就是分開(kāi)的結(jié)果組的簡(jiǎn)單合并。不過(guò),如果索引是從格點(diǎn)獲得,那么除了采取結(jié)果的合并以外,還可以使用合并得分進(jìn)行檢索。給定查詢q,令Cw(q)和Cp(q)分別為從字索引和音素索引獲得的格點(diǎn)總數(shù)。對(duì)于音素索引定義歸一化格點(diǎn)總數(shù)為Cpnorm(q)=(Cp(q))1|pron(q)|]]>其中|pron(q)|為查詢q的發(fā)音長(zhǎng)度。結(jié)合的得分然后定義為Cwp(q)=Cw(q)+λCpnorm(q)]]>其中λ為經(jīng)驗(yàn)確定的比例因子。在其他情況下,檢索期間不是使用兩個(gè)不同的閾值,而是可以對(duì)Cw(q)和Cpnorm(q)使用單一閾值。
為了評(píng)價(jià)ASR性能,標(biāo)準(zhǔn)錯(cuò)字率(WER)可以用作度量。由于檢索是目標(biāo),按類型使用OOV率度量OOV字特征。為了評(píng)價(jià)檢索性能,使用與手工抄錄相比的精度和恢復(fù)。令正確(q)為查詢q被發(fā)現(xiàn)正確的次數(shù),回答(q)為對(duì)查詢q回答的次數(shù),參考(q)為q被發(fā)現(xiàn)在參考中的次數(shù)。
系統(tǒng)對(duì)每次查詢計(jì)算精度和恢復(fù)率,并且報(bào)告對(duì)全部查詢的平均值。查詢組Q包括除了100個(gè)最常見(jiàn)字的非用詞表以外參考中見(jiàn)到的全部字。
對(duì)于基于格點(diǎn)的檢索方法,通過(guò)改變閾值可以獲得不同的操作點(diǎn)。在這些操作點(diǎn)的精度和恢復(fù)可以繪制為曲線。除了各個(gè)精度-恢復(fù)值以外,系統(tǒng)還計(jì)算F度量,定義為 并且報(bào)告最大F度量(maxF),以歸納精度-恢復(fù)曲線中的信息。
三個(gè)不同的語(yǔ)料庫(kù)用于評(píng)估不同檢索技術(shù)的有效性。第一個(gè)語(yǔ)料庫(kù)是DARPA廣播新聞?wù)Z料庫(kù),內(nèi)含TV和廣播節(jié)目的選錄,包括多種音響條件。試驗(yàn)集為1998 Hub-4廣播新聞(hub4e98)評(píng)價(jià)試驗(yàn)集(可取自LDC目錄號(hào)LDC2000S86),它有三小時(shí)長(zhǎng)并由人工劃分為940個(gè)片段。它包含著32411個(gè)字標(biāo)記和4885個(gè)字類型。對(duì)于ASR,可以使用實(shí)時(shí)系統(tǒng)。由于系統(tǒng)是為SDR而設(shè)計(jì),系統(tǒng)的識(shí)別詞匯表具有超過(guò)200,000字。
第二個(gè)語(yǔ)料庫(kù)是交換機(jī)語(yǔ)料庫(kù),內(nèi)含若干雙方電話交談。試驗(yàn)集為RT02評(píng)價(jià)試驗(yàn)集,它有5小時(shí)長(zhǎng),具有120個(gè)交談方并由人工劃分為6266個(gè)片段。它包含著65255個(gè)字標(biāo)記和3788個(gè)字類型。對(duì)于ASR,使用評(píng)價(jià)系統(tǒng)的第一步。系統(tǒng)的識(shí)別詞匯表具有超過(guò)45,000字。
第三個(gè)語(yǔ)料庫(kù)稱為電話會(huì)議,因?yàn)樗喾N話題的多方電話會(huì)議。來(lái)自會(huì)議若干分支的音頻匯合并記錄為單一通道。轉(zhuǎn)錄了六個(gè)電話會(huì)議(大約3.5小時(shí))的試驗(yàn)集。它包含著31106個(gè)字標(biāo)記和2779個(gè)字類型。在ASR之前使用檢測(cè)音響中變化的算法,將電話自動(dòng)劃分為總共1157個(gè)片段。對(duì)于ASR使用交換機(jī)評(píng)價(jià)系統(tǒng)的第一步。
表1顯示了這三項(xiàng)任務(wù)的ASR性能以及所述語(yǔ)料庫(kù)的按類型OOV率。這個(gè)表展示了多種LVCSR任務(wù)的錯(cuò)字率(WER)和按類型OOV率。重要的是注意到對(duì)于交換機(jī)和電話會(huì)議任務(wù)識(shí)別詞匯表相同,而且建立ASR系統(tǒng)時(shí)沒(méi)有使用來(lái)自電話會(huì)議任務(wù)的數(shù)據(jù)。
表1
作為基準(zhǔn),ASR系統(tǒng)的最優(yōu)字假設(shè)用于編制索引和檢索。這種基準(zhǔn)系統(tǒng)的性能在表1中給出。如同期望,對(duì)廣播新聞?wù)Z料庫(kù)獲得了很好的性能。令人關(guān)注的是注意到從交換機(jī)變?yōu)殡娫挄?huì)議時(shí),精度-恢復(fù)的退化與錯(cuò)字率的退化相同。
表2
第二組實(shí)驗(yàn)研究ASR字格點(diǎn)的使用。為了減少存儲(chǔ)需求,把格點(diǎn)減少到僅僅包含其成本(即負(fù)對(duì)數(shù)似然度)對(duì)于最優(yōu)路徑在閾值之內(nèi)的路徑。這個(gè)成本閾值越小,格點(diǎn)和索引文件就越小。圖3展示了在電話會(huì)議任務(wù)中對(duì)不同縮減閾值時(shí)的精度-恢復(fù)曲線302。
表3顯示了最終的索引規(guī)模和最大F度量值。在電話會(huì)議任務(wù)中觀察到成本=6產(chǎn)生了好結(jié)果,所以對(duì)實(shí)驗(yàn)的其余部分使用這個(gè)數(shù)值。
注意,與ASR單一最優(yōu)情況相比,對(duì)于廣播新聞這使索引規(guī)模增加為3倍,對(duì)于交換機(jī)增加為5倍,對(duì)于電話會(huì)議增加為9倍。
表3
下一步對(duì)于僅僅使用音素格點(diǎn)的檢索,使用以上討論的兩種語(yǔ)音抄錄方法——音素識(shí)別和字至音素轉(zhuǎn)換——進(jìn)行對(duì)比研究。在表4中呈現(xiàn)了產(chǎn)生最大F度量的精度和恢復(fù)以及最大F度量。這些結(jié)果清楚地表明音素識(shí)別不如其他方法。
表4
如果搜索音素索引時(shí)沒(méi)有返回結(jié)果,那么搜索字索引的策略優(yōu)先于其他策略。表5對(duì)比了使用字和音素索引時(shí)三種策略的最大F數(shù)值。
表5
圖4呈現(xiàn)了這種策略對(duì)電話會(huì)議語(yǔ)料庫(kù)的結(jié)果402。在這些實(shí)驗(yàn)中使用的音素索引是過(guò)去通過(guò)把字格點(diǎn)轉(zhuǎn)換為音素格點(diǎn)而獲得的。使用由音素識(shí)別獲得的音素索引給出的結(jié)果差得多。
當(dāng)搜索音素索引中短發(fā)音的字時(shí),系統(tǒng)將產(chǎn)生許多假警報(bào)。減少假警報(bào)數(shù)目的一種方法是不允許以短發(fā)音查詢。圖5顯示了對(duì)查詢強(qiáng)加最小發(fā)音長(zhǎng)度的效果502。對(duì)于將要回答的查詢,其發(fā)音必須具有多于最小音素?cái)?shù)的音素,否則不返回回答。使用最小音素?cái)?shù)=3獲得了最優(yōu)的最大F度量結(jié)果。因此,這幅圖顯示了對(duì)電話會(huì)議使用字/音素混合策略時(shí)最小發(fā)音長(zhǎng)度的效果。
圖6呈現(xiàn)了不同的識(shí)別詞匯表規(guī)模(5k、20k、45k)對(duì)交換機(jī)語(yǔ)料庫(kù)的結(jié)果602。按類型OOV率分別為32%、10%和6%。錯(cuò)字率分別為41.5%、40.1%和40.1%。對(duì)于20,000和45,000詞匯表規(guī)模,精度-恢復(fù)曲線幾乎相同。
迄今為止,在全部實(shí)驗(yàn)中查詢列表包括單字。為了觀察多種方法在面對(duì)更長(zhǎng)的查詢時(shí)的表現(xiàn),在研究中使用了一組字對(duì)查詢。不是使用參考抄錄中見(jiàn)到的全部字對(duì),而是選擇比其他字更加容易出現(xiàn)在一起的字對(duì)。為此目的,按照字對(duì)(w1,w2)的逐點(diǎn)互信息logp(w1,w2)p(w1)p(w2)]]>
對(duì)它們進(jìn)行排序,在我們的實(shí)驗(yàn)中使用前面的若干對(duì)作為查詢。
結(jié)果,系統(tǒng)對(duì)這種類型的查詢,精度非常高。由于這種原因,更加令人關(guān)注的是看每種技術(shù)實(shí)現(xiàn)最大F度量的運(yùn)行點(diǎn),在這種情況下它與產(chǎn)生最高恢復(fù)的點(diǎn)一致。表6呈現(xiàn)了對(duì)交換機(jī)語(yǔ)料庫(kù)使用1004個(gè)字對(duì)查詢的結(jié)果。使用字格點(diǎn)有可能使系統(tǒng)的恢復(fù)提高16.4%而精度的降低僅有2.2%。使用音素格點(diǎn)能夠在精度損失1.2%時(shí)使恢復(fù)實(shí)現(xiàn)再提高3.7%。最終的系統(tǒng)仍然具有95%的精度。
表6
最后,多種技術(shù)對(duì)不同任務(wù)的對(duì)比顯示在表7中,其中給定了最大F度量(maxF)。使用字格點(diǎn)在maxF中比使用最優(yōu)字假設(shè)產(chǎn)生了3-5%的相對(duì)提高。對(duì)于字和音素格點(diǎn)都使用的最終系統(tǒng),對(duì)基準(zhǔn)的相對(duì)提高增加至8-12%。
圖7呈現(xiàn)了精度-恢復(fù)曲線702。對(duì)于采用字和音素格點(diǎn)的較好的技術(shù),使用它們獲得的提高隨著檢索性能變差而增加。圖7顯示了多種技術(shù)對(duì)不同任務(wù)的精度-恢復(fù)關(guān)系。所述任務(wù)是廣播新聞(+)、交換機(jī)(X)和電話會(huì)議(o)。這些技術(shù)使用最優(yōu)字假設(shè)(單點(diǎn))、使用字格點(diǎn)(實(shí)線)和使用字和音素格點(diǎn)(虛線)。
表7
本文公開(kāi)的是一個(gè)編制索引過(guò)程,用于口頭發(fā)音檢索,它面對(duì)若干ASR格點(diǎn)而不僅僅是單一最優(yōu)的文本。
本文公開(kāi)的是口頭發(fā)音檢索所用的編制索引過(guò)程,它面對(duì)若干ASR格點(diǎn)而不僅僅是單一最優(yōu)的文本。已經(jīng)表明對(duì)于錯(cuò)字率不良且冗余度低的任務(wù),這個(gè)過(guò)程與單一最優(yōu)檢索相比,能夠使最大F度量改進(jìn)不止5分。表達(dá)方式靈活,所以字格點(diǎn)和音素格點(diǎn)都可以表達(dá),在對(duì)包含著OOV字的短語(yǔ)進(jìn)行搜索時(shí),后者對(duì)改進(jìn)效能很重要。重要的是注意到常規(guī)語(yǔ)音的口頭發(fā)音檢索與廣播新聞的口頭文檔檢索具有不同的性質(zhì)。盡管在包括廣播新聞的多種任務(wù)中觀察到一致的改進(jìn),但是此處提議的過(guò)程對(duì)于更加困難的常規(guī)語(yǔ)音比如交換機(jī)和電話會(huì)議最有益。
本發(fā)明范圍之內(nèi)的實(shí)施例也可以包括計(jì)算機(jī)可讀的介質(zhì),以便攜帶或者說(shuō)帶有其中存儲(chǔ)的計(jì)算機(jī)可執(zhí)行的指令或數(shù)據(jù)結(jié)構(gòu)。此類計(jì)算機(jī)可讀的介質(zhì)可以是通用或?qū)S糜?jì)算機(jī)能夠存取的任何可用的介質(zhì)。舉例而言,并非限制,此類計(jì)算機(jī)可讀介質(zhì)可以包括RAM、ROM、EEPROM、CD-ROM或其他光盤(pán)存儲(chǔ)器、磁盤(pán)存儲(chǔ)器或其他磁性存儲(chǔ)設(shè)備,或者能夠用于以計(jì)算機(jī)可執(zhí)行的指令或數(shù)據(jù)結(jié)構(gòu)的形式攜帶或存儲(chǔ)所需程序代碼裝置的任何其他介質(zhì)。在通過(guò)網(wǎng)絡(luò)或另一種通信連接(或者是有線的、無(wú)線的,或者其組合)向計(jì)算機(jī)傳遞或者說(shuō)提供信息時(shí),所述計(jì)算機(jī)恰當(dāng)?shù)匕阉鲞B接視為計(jì)算機(jī)可讀的介質(zhì)。因此,任何此類連接都恰當(dāng)?shù)胤Q為計(jì)算機(jī)可讀的介質(zhì)。上述連接也應(yīng)當(dāng)包括在計(jì)算機(jī)可讀介質(zhì)的范圍之內(nèi)。
計(jì)算機(jī)可執(zhí)行的指令包括例如使通用計(jì)算機(jī)、專用計(jì)算機(jī)或?qū)S锰幚碓O(shè)備執(zhí)行某個(gè)功能或一組功能的指令和數(shù)據(jù)。計(jì)算機(jī)可執(zhí)行的指令也包括計(jì)算機(jī)在獨(dú)立的或網(wǎng)絡(luò)的環(huán)境中執(zhí)行的若干程序模塊。一般說(shuō)來(lái),程序模塊包括例程、程序、對(duì)象、組件和數(shù)據(jù)結(jié)構(gòu)等等,它們執(zhí)行特定的任務(wù)或者實(shí)施特定的抽象數(shù)據(jù)類型。計(jì)算機(jī)可執(zhí)行的指令、相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)以及程序模塊表示了執(zhí)行本文公開(kāi)之方法步驟所用的程序代碼裝置的實(shí)例。此類可執(zhí)行指令或相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)的具體序列表示了實(shí)施這些步驟中介紹之功能的對(duì)應(yīng)動(dòng)作的實(shí)例。
本領(lǐng)域的技術(shù)人員將會(huì)認(rèn)同,本發(fā)明的其他實(shí)施例可以實(shí)施在具有許多類型的計(jì)算機(jī)系統(tǒng)配置的網(wǎng)絡(luò)計(jì)算環(huán)境中,包括個(gè)人計(jì)算機(jī)、手持設(shè)備、多處理器系統(tǒng)、基于微處理器的或可編程的消費(fèi)電器、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)等等。實(shí)施例也可以實(shí)施在分布式計(jì)算環(huán)境中,其中若干任務(wù)由本地和遠(yuǎn)程處理設(shè)備執(zhí)行,它們通過(guò)通信網(wǎng)絡(luò)連接(或者是硬布線的連接、無(wú)線連接,或者是其組合)。在分布式計(jì)算環(huán)境中,在本地和遠(yuǎn)程存儲(chǔ)設(shè)備中都可以具有程序模塊。
盡管上述說(shuō)明中可能包含若干特定細(xì)節(jié),但是它們不應(yīng)當(dāng)解釋為以任何方式限制權(quán)利要求書(shū)。本發(fā)明所介紹實(shí)施例的其他結(jié)構(gòu)是本發(fā)明范圍的一部分。所以,所附帶的權(quán)利要求書(shū)及其法律等效內(nèi)容應(yīng)當(dāng)僅僅定義本發(fā)明,而不是給出的任何特定實(shí)例。
權(quán)利要求
1.一種檢索口頭文檔的方法,所述方法包括把與口頭文檔相關(guān)聯(lián)的語(yǔ)音轉(zhuǎn)換為格點(diǎn)表示;對(duì)所述語(yǔ)音的格點(diǎn)表示編制索引;收到用戶發(fā)出的查詢后搜索所述編制了索引的語(yǔ)音的格點(diǎn)表示;以及返回來(lái)自所述口頭文檔的與所述用戶查詢匹配的音頻片段。
2.根據(jù)權(quán)利要求1的方法,其特征在于,轉(zhuǎn)換語(yǔ)音和對(duì)語(yǔ)音的格點(diǎn)表示編制索引的所述步驟是離線進(jìn)行的。
3.根據(jù)權(quán)利要求1的方法,其特征在于,所述轉(zhuǎn)換語(yǔ)音的步驟進(jìn)一步包括在所述格點(diǎn)表示中提供計(jì)時(shí)信息。
4.根據(jù)權(quán)利要求1的方法,其特征在于,所述轉(zhuǎn)換語(yǔ)音的步驟通過(guò)自動(dòng)語(yǔ)音識(shí)別執(zhí)行。
5.根據(jù)權(quán)利要求4的方法,其特征在于,所述自動(dòng)語(yǔ)音識(shí)別是基于HMM的。
6.根據(jù)權(quán)利要求5的方法,其特征在于,所述自動(dòng)語(yǔ)音識(shí)別是大詞匯表連續(xù)語(yǔ)音識(shí)別。
7.根據(jù)權(quán)利要求5的方法,其特征在于,所述自動(dòng)語(yǔ)音識(shí)別中使用的音響模型是決策樹(shù)狀態(tài)集束的三音素。
8.根據(jù)權(quán)利要求7的方法,其特征在于,所述自動(dòng)語(yǔ)音識(shí)別中使用的語(yǔ)言模型是縮減的補(bǔ)償三字母組統(tǒng)計(jì)模型。
9.根據(jù)權(quán)利要求1的方法,其特征在于,不在基準(zhǔn)發(fā)音辭典中的發(fā)音,包括詞匯表以外的字,通過(guò)文本至語(yǔ)音模塊產(chǎn)生。
10.根據(jù)權(quán)利要求1的方法,其特征在于,對(duì)所述格點(diǎn)表示編制索引進(jìn)一步包括存儲(chǔ)一組索引,所述一組索引包括每個(gè)弧標(biāo)簽所用的一個(gè)、所述格點(diǎn)號(hào)所用的一個(gè)、每個(gè)格點(diǎn)中每條標(biāo)注的弧的輸入狀態(tài)所用的一個(gè)、群體趨向該狀態(tài)的概率所用的一個(gè)、所述弧本身的概率所用的一個(gè);以及在所述格點(diǎn)中存儲(chǔ)下一個(gè)狀態(tài)所用的索引。
11.根據(jù)權(quán)利要求10的方法,其特征在于,搜索所述編制了索引的語(yǔ)音的格點(diǎn)表示以及返回來(lái)自所述口頭文檔的與所述用戶查詢匹配的音頻片段進(jìn)一步包括通過(guò)按所述標(biāo)簽索引檢索每個(gè)格點(diǎn)中的所有弧,從表示所述口頭文檔的一組格點(diǎn)中檢索單一標(biāo)簽;通過(guò)概率分析判斷哪個(gè)標(biāo)簽符合所述用戶查詢;以及返回與所述匹配的標(biāo)簽相關(guān)聯(lián)的音頻片段。
12.根據(jù)權(quán)利要求10的方法,其特征在于,在從所述格點(diǎn)組檢索所述單一標(biāo)簽之前,所述格點(diǎn)組由推進(jìn)權(quán)重歸一化,所以從某條弧趨向最終狀態(tài)的全部路徑的組的概率為1。
13.根據(jù)權(quán)利要求10的方法,其特征在于,概率低于一定閾值時(shí)不返回音頻片段。
14.根據(jù)權(quán)利要求1的方法,其特征在于,所述方法進(jìn)一步包括通過(guò)使用其中所述識(shí)別單位是音素的ASR系統(tǒng)的音素識(shí)別,獲得與所述口頭文檔相關(guān)聯(lián)的所述口頭發(fā)音的語(yǔ)音表示,其中所述ASR系統(tǒng)使用音素級(jí)別的語(yǔ)言模型。
15.根據(jù)權(quán)利要求1的方法,其特征在于,所述方法進(jìn)一步包括通過(guò)使用基準(zhǔn)ASR系統(tǒng)把所述發(fā)音的字級(jí)別表示轉(zhuǎn)換為音素表示,并且將所述輸出中的每個(gè)字按照音素由其發(fā)音取代,獲得與所述口頭文檔相關(guān)聯(lián)的所述口頭發(fā)音的語(yǔ)音表示。
16.根據(jù)權(quán)利要求1的方法,其特征在于,所述方法進(jìn)一步包括對(duì)詞匯表以外字檢測(cè)通過(guò)使用混合語(yǔ)言模型,獲得與所述口頭文檔相關(guān)聯(lián)的所述口頭發(fā)音的語(yǔ)音表示。
17.根據(jù)權(quán)利要求16的方法,其特征在于,所述混合語(yǔ)言模型是音素級(jí)別語(yǔ)言模型和字級(jí)別語(yǔ)言模型的組合。
18.根據(jù)權(quán)利要求1的方法,其特征在于,所述口頭文檔根據(jù)音素編制索引,而且所述方法進(jìn)一步包括通過(guò)使用所述查詢字發(fā)音把每個(gè)查詢字轉(zhuǎn)換為音素串;以及在基于音素的語(yǔ)音的格點(diǎn)表示的索引中搜索每個(gè)音素串。
19.根據(jù)權(quán)利要求18的方法,其特征在于,采用最小發(fā)音長(zhǎng)度的限制。
20.一種檢索口頭文檔的方法,其特征在于,存在著與所述口頭文檔有關(guān)的字索引和亞字索引,所述方法包括,在收到用戶發(fā)出的查詢后根據(jù)所述用戶查詢搜索所述字索引;根據(jù)所述用戶查詢搜索所述亞字索引;以及結(jié)合所述結(jié)果從所述口頭文檔檢索與所述用戶查詢匹配的音頻片段。
21.根據(jù)權(quán)利要求20的方法,其特征在于,檢索所述音頻片段進(jìn)一步包括采用來(lái)自格點(diǎn)計(jì)數(shù)的組合分?jǐn)?shù)檢索所述音頻片段,所述格點(diǎn)計(jì)數(shù)是從所述字索引和所述亞字索引獲得的。
22.根據(jù)權(quán)利要求21的方法,其特征在于,在計(jì)算所述組合分?jǐn)?shù)時(shí),使用所述用戶查詢的發(fā)音長(zhǎng)度對(duì)所述亞字索引格點(diǎn)計(jì)數(shù)進(jìn)行歸一化。
23.一種檢索口頭文檔的方法,其特征在于,存在著與所述口頭文檔有關(guān)的字索引和亞字索引,所述方法包括,在收到用戶發(fā)出的查詢后如果所述用戶查詢?cè)谠~匯表中,則根據(jù)所述用戶查詢搜索所述字索引;如果所述用戶查詢不在詞匯表中,則根據(jù)所述用戶查詢搜索所述亞字索引。
24.一種檢索口頭文檔的方法,其特征在于,存在著與所述口頭文檔有關(guān)的字索引和亞字索引,所述方法包括,在收到用戶發(fā)出的查詢后根據(jù)所述用戶查詢搜索所述字索引,如果沒(méi)有返回結(jié)果,則根據(jù)所述用戶查詢搜索所述亞字索引。
25.一種檢索口頭文檔的系統(tǒng),所述系統(tǒng)包括用于把與口頭文檔相關(guān)聯(lián)的語(yǔ)音轉(zhuǎn)換為格點(diǎn)表示的裝置;用于對(duì)所述語(yǔ)音的格點(diǎn)表示編制索引的裝置;收到用戶發(fā)出的查詢后用于搜索所述編制了索引的語(yǔ)音的格點(diǎn)表示的裝置;以及用于返回來(lái)自所述口頭文檔的與所述用戶查詢匹配的音頻片段的裝置。
26.一種計(jì)算機(jī)可讀的介質(zhì),存儲(chǔ)的指令用于控制計(jì)算設(shè)備檢索口頭文檔,所述指令包括以下步驟把與口頭文檔相關(guān)聯(lián)的語(yǔ)音轉(zhuǎn)換為格點(diǎn)表示;對(duì)所述語(yǔ)音的格點(diǎn)表示編制索引;收到用戶發(fā)出的查詢后搜索所述編制了索引的語(yǔ)音的格點(diǎn)表示;以及返回來(lái)自所述口頭文檔的與所述用戶查詢匹配的音頻片段。
全文摘要
公開(kāi)了用于從口頭文檔檢索音頻片段的系統(tǒng)和方法。優(yōu)選情況下,所述口頭文檔是具有中等錯(cuò)字率的文檔,比如電話交談或電話會(huì)議。本方法包括把與口頭文檔相關(guān)聯(lián)的語(yǔ)音轉(zhuǎn)換為格點(diǎn)表示,以及對(duì)語(yǔ)音的格點(diǎn)表示編制索引。典型情況下,這些步驟離線進(jìn)行。收到用戶發(fā)出的查詢后,本方法進(jìn)一步包括搜索編制了索引的語(yǔ)音格點(diǎn)表示,以及返回從所述口頭文檔檢索的與用戶查詢匹配的音頻片段。
文檔編號(hào)G10L15/00GK1741132SQ20051009157
公開(kāi)日2006年3月1日 申請(qǐng)日期2005年8月23日 優(yōu)先權(quán)日2004年8月23日
發(fā)明者穆拉特·薩拉克拉爾, 理查德·威廉姆·斯普羅特 申請(qǐng)人:美國(guó)電報(bào)電話公司