專利名稱:使用語(yǔ)音識(shí)別的內(nèi)容選擇的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及語(yǔ)音識(shí)別系統(tǒng)領(lǐng)域,并且更具體地涉及 用于無(wú)線通信設(shè)備中的內(nèi)容搜索的語(yǔ)音識(shí)別。
背景技術(shù):
隨著尋呼機(jī)和移動(dòng)電話的出現(xiàn),無(wú)線服務(wù)業(yè)已經(jīng)成長(zhǎng)為數(shù) 十億美元的行業(yè)。近來(lái),語(yǔ)音識(shí)別已經(jīng)享用無(wú)線服務(wù)業(yè)的成功。語(yǔ)音 識(shí)別用于各種應(yīng)用和服務(wù)。例如,無(wú)線服務(wù)訂戶可以配備有快速撥號(hào) 特征,由此訂戶對(duì)著無(wú)線設(shè)備說(shuō)出呼叫接收者的名稱。使用語(yǔ)音識(shí)別 來(lái)識(shí)別接收者的名稱,并且在訂戶和接收者之間發(fā)起呼叫。在另一個(gè) 示例中,呼叫方信息(411)可以利用語(yǔ)音識(shí)別來(lái)識(shí)別訂戶試圖對(duì)其進(jìn) 行呼叫的接收者的名稱。在無(wú)線設(shè)備中語(yǔ)音識(shí)別的另一個(gè)使用是信息檢索。例如, 諸如音頻文件的內(nèi)容文件可以被標(biāo)記有語(yǔ)音數(shù)據(jù),檢索機(jī)制使用該語(yǔ) 音數(shù)據(jù)來(lái)辨別內(nèi)容文件。然而,當(dāng)前的語(yǔ)音識(shí)別系統(tǒng)不能夠在無(wú)線設(shè) 備處有效地執(zhí)行信息檢索。在無(wú)線設(shè)備中的很多內(nèi)容文件包括有限的 文本。例如,音頻文件可以僅具有與其相關(guān)聯(lián)的標(biāo)題。該文本很短并
且可能包括拼寫不規(guī)范而導(dǎo)致詞匯里沒有的詞。另外, 一些語(yǔ)音識(shí)別系統(tǒng)利用關(guān)鍵詞檢出技術(shù)來(lái)建立用于 查詢的關(guān)鍵詞集合。由于任務(wù)的詞匯是開放的,并且經(jīng)常落在詞匯詞 典之外,所以難以實(shí)現(xiàn)關(guān)鍵詞檢出技術(shù),其中必須仔細(xì)選擇關(guān)鍵詞和 反關(guān)鍵詞(anti-keyword)。因此,其他語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)在口述模式 期間的語(yǔ)言模型。然而,訓(xùn)練這樣的語(yǔ)言模型是有挑戰(zhàn)性的,因?yàn)閿?shù) 據(jù)不足并且是動(dòng)態(tài)的。傳統(tǒng)的口語(yǔ)文檔檢索經(jīng)常類似于文本査詢。例
7如,語(yǔ)音識(shí)別系統(tǒng)用于從口語(yǔ)話語(yǔ)生成文本査詢術(shù)語(yǔ)。然后,這些文 本查詢術(shù)語(yǔ)用于査詢用于定位用戶期望的文件的文件集合。如果無(wú)線 設(shè)備包括多種文件,則該過程可能相對(duì)長(zhǎng),從而消耗和浪費(fèi)了無(wú)線設(shè) 備的資源。因此,需要克服如上所述的現(xiàn)有技術(shù)的問題。
在附圖的各個(gè)視圖中相同的附圖標(biāo)記指相同或功能類似 的元件,附圖連同以下的具體實(shí)施方式
一起被并入說(shuō)明書并且形成本 說(shuō)明書的一部分,附圖用于進(jìn)一步說(shuō)明各種實(shí)施例并且用于解釋所有 根據(jù)本發(fā)明的各種原理和優(yōu)點(diǎn)。圖l是圖示根據(jù)本發(fā)明的實(shí)施例的無(wú)線通信系統(tǒng)的框圖;
圖2是圖示根據(jù)本發(fā)明的實(shí)施例的圖l的語(yǔ)音響應(yīng)搜索引 擎的更詳細(xì)視圖的框圖;圖3是圖示根據(jù)本發(fā)明的實(shí)施例的示例性音素網(wǎng)格的框
圖;圖4是圖示根據(jù)本發(fā)明的實(shí)施例的示例性詞網(wǎng)格的框圖;
圖5是圖示根據(jù)本發(fā)明的實(shí)施例的無(wú)線設(shè)備的框圖;
圖6是圖示根據(jù)本發(fā)明的實(shí)施例的信息處理系統(tǒng)的框圖;
圖7是圖示根據(jù)本發(fā)明的實(shí)施例的創(chuàng)建索引N元文法 (N-gram)的示例性過程的操作流程圖;圖8是圖示根據(jù)本發(fā)明的實(shí)施例的使用索引N元文法來(lái)査
詢音素網(wǎng)格的示例性過程的操作流程圖;圖9是圖示根據(jù)本發(fā)明的實(shí)施例的使用索引N元文法來(lái)査
詢?cè)~網(wǎng)格的示例性過程的操作流程圖;圖10是圖示根據(jù)本發(fā)明的實(shí)施例的用于檢索無(wú)線設(shè)備中
的內(nèi)容使用與索引N元文法相關(guān)聯(lián)的文本査詢音素網(wǎng)格的示例性過程
的操作流程圖;以及
圖11是圖示根據(jù)本發(fā)明的實(shí)施例的用于檢索無(wú)線設(shè)備中
的內(nèi)容査詢音素網(wǎng)格的另一個(gè)示例性過程的操作流程圖。
具體實(shí)施例方式按照要求,在此公開了本發(fā)明的詳細(xì)實(shí)施例;然而,應(yīng)當(dāng)
理解,所公開的實(shí)施例僅是本發(fā)明的示例,它們可以以各種形式來(lái)體 現(xiàn)。因此,在此公開的具體結(jié)構(gòu)和功能細(xì)節(jié)不應(yīng)當(dāng)被解釋為限制性的, 而僅是作為權(quán)利要求的基礎(chǔ),并且是用于教導(dǎo)本領(lǐng)域技術(shù)人員以實(shí)際 上任何適當(dāng)?shù)脑敿?xì)結(jié)構(gòu)不同地采用本發(fā)明的代表性基礎(chǔ)。而且,在此
使用的術(shù)語(yǔ)和短語(yǔ)并不意在是限制性的;相反,意在提供對(duì)本發(fā)明的
可理解的描述。如在此所使用的術(shù)語(yǔ)"一個(gè)"被定義為一個(gè)或多于一個(gè)。 如在此所使用的術(shù)語(yǔ)"多個(gè)"被定義為兩個(gè)或多于兩個(gè)。如在此所使 用的術(shù)語(yǔ)"另一個(gè)"被定義為至少第二或更多。如在此所使用的術(shù)語(yǔ) "包含"和/或"具有"被定義為包括(即,開放性語(yǔ)言)。如在此所 使用的術(shù)語(yǔ)"耦合"被定義為連接,盡管不一定直接并且不一定機(jī)械 地連接。術(shù)語(yǔ)"無(wú)線通信設(shè)備"意在廣義地涵蓋可以無(wú)線地接收信 號(hào)、并且可選地可以無(wú)線地發(fā)射信號(hào)以及還可以在無(wú)線通信系統(tǒng)中進(jìn) 行操作的很多不同類型的設(shè)備。例如,并且沒有任何限制,無(wú)線通信 設(shè)備可以包括以下的任何一個(gè)或組合蜂窩電話、移動(dòng)電話、智能電 話、雙向無(wú)線電設(shè)備、雙向?qū)ず魴C(jī)、無(wú)線消息收發(fā)設(shè)備、膝上型計(jì)算 機(jī)/計(jì)算機(jī)、汽車網(wǎng)關(guān)、住宅網(wǎng)關(guān)等。語(yǔ)音響應(yīng)搜索的本發(fā)明的一個(gè)優(yōu)點(diǎn)是基于從用戶接收到 的可聽話語(yǔ)來(lái)檢索內(nèi)容。為了找到最佳匹配,在索引文件中的N元文 法或詞集合被視為査詢,并且音素網(wǎng)格和/或詞網(wǎng)格被視為要被搜索的 文檔。音素序列的重復(fù)出現(xiàn)在本發(fā)明中提供了分辨力。條件網(wǎng)格模型用于對(duì)音素級(jí)別上的查詢?cè)u(píng)分,以辨別高的短語(yǔ)選擇。在兩階段方法 中,基于音素網(wǎng)格找到詞,并且基于詞網(wǎng)格找到標(biāo)記文本項(xiàng)。然后, 高評(píng)分標(biāo)記文本項(xiàng)被用戶用于辨別用戶所期望的內(nèi)容。無(wú)線通信系統(tǒng)根據(jù)本發(fā)明的實(shí)施例,如圖1所示,圖示了無(wú)線通信系統(tǒng) 100。圖1示出了經(jīng)由網(wǎng)關(guān)108將一個(gè)或多個(gè)無(wú)線設(shè)備104與中央服務(wù) 器106相連接的無(wú)線通信網(wǎng)絡(luò)102。無(wú)線網(wǎng)絡(luò)102包括移動(dòng)電話網(wǎng)絡(luò)、 移動(dòng)文本消息收發(fā)設(shè)備網(wǎng)絡(luò)、尋呼機(jī)網(wǎng)絡(luò)等。而且,無(wú)線網(wǎng)絡(luò)100的 通信標(biāo)準(zhǔn)包括碼分多址("CDMA")、時(shí)分多址("TDMA")、全 球移動(dòng)通信系統(tǒng)("GSM")、通用分組無(wú)線業(yè)務(wù)("GPRS")、頻 分多址("FDMA")、正交頻分復(fù)用("OFDM")等。另外,無(wú)線 通信網(wǎng)絡(luò)102還包括文本消息收發(fā)標(biāo)準(zhǔn),例如,短消息服務(wù)("SMS")、 增強(qiáng)消息服務(wù)("EMS")、多媒體消息服務(wù)("MMS")等。無(wú)線通信網(wǎng)絡(luò)102支持任何數(shù)目的無(wú)線設(shè)備104。無(wú)線通 信網(wǎng)絡(luò)102的支持包括支持移動(dòng)電話、智能電話、文本消息收發(fā)設(shè)備、 手持計(jì)算機(jī)、尋呼機(jī)、傳呼機(jī)、無(wú)線通信卡等。智能電話是l) 口袋型 PC、手持PC、掌上PC或個(gè)人數(shù)字助理(PDA)以及2)移動(dòng)電話的 組合。更一般地,智能電話可以是具有附加應(yīng)用處理能力的移動(dòng)電話。 在一個(gè)實(shí)施例中,無(wú)線通信卡(未示出)存在于信息處理系統(tǒng)(未示 出)中。另外,無(wú)線設(shè)備104還可以包括可選的本地?zé)o線鏈路(未 示出),該本地?zé)o線鏈路允許無(wú)線設(shè)備104在不使用無(wú)線網(wǎng)絡(luò)102的 情況下直接與一個(gè)或多個(gè)無(wú)線設(shè)備通信。本地?zé)o線鏈路(未示出)例 如由允許PTT通信的Mototalk來(lái)提供。在另一個(gè)實(shí)施例中,本地?zé)o線 鏈路(未示出)由藍(lán)牙、紅外數(shù)據(jù)訪問(IrDA)技術(shù)來(lái)提供。中央服務(wù)器106保持并且處理在無(wú)線網(wǎng)絡(luò)102上傳遞的關(guān)于所有無(wú)線設(shè)備的信息。另外,在該示例中,中央服務(wù)器106通過無(wú) 線通信網(wǎng)絡(luò)102將無(wú)線設(shè)備104通信地耦合到廣域網(wǎng)110、局域網(wǎng)112 和公共交換電話網(wǎng)114。這些網(wǎng)絡(luò)IIO、 112、 114中的每一個(gè)都具有向 無(wú)線設(shè)備104發(fā)送例如多媒體文本消息的數(shù)據(jù)的能力。無(wú)線通信系統(tǒng) IOO還包括一個(gè)或多個(gè)基站116,每個(gè)基站116包括站點(diǎn)控制器(未示 出)。在一個(gè)實(shí)施例中,無(wú)線通信網(wǎng)絡(luò)102能夠利用例如由IEEE.16e 標(biāo)準(zhǔn)闡述的時(shí)分雙工("TDD")來(lái)進(jìn)行寬帶無(wú)線通信。在一個(gè)實(shí)施例中,無(wú)線設(shè)備104包括語(yǔ)音響應(yīng)搜索引擎 118。語(yǔ)音響應(yīng)搜索引擎允許用戶對(duì)無(wú)線設(shè)備104說(shuō)出話語(yǔ),用于檢索 諸如音頻文件、文本文件、視頻文件、圖像文件、多媒體文件等的內(nèi) 容。所述內(nèi)容可以本地存在于無(wú)線設(shè)備104上,或者可以存在于諸如 中央服務(wù)器106的獨(dú)立系統(tǒng)上或者在通信地耦合到無(wú)線通信網(wǎng)絡(luò)102 的另一個(gè)系統(tǒng)上。在一個(gè)實(shí)施例中,中央服務(wù)器可以包括語(yǔ)音響應(yīng)搜 索引擎118,或者可以包括語(yǔ)音響應(yīng)搜索引擎118的一個(gè)或多個(gè)組件。 例如,無(wú)線設(shè)備104可以從用戶捕獲可聽的話語(yǔ),并且將該話語(yǔ)發(fā)射 到中央服務(wù)器106以進(jìn)一步處理。替代地,無(wú)線設(shè)備104可以執(zhí)行處 理的一部分,而中央服務(wù)器106進(jìn)一步處理所述話語(yǔ)以進(jìn)行內(nèi)容檢索。 以下更詳細(xì)地討論語(yǔ)音響應(yīng)搜索引擎118。語(yǔ)音響應(yīng)搜索引擎圖2是圖示語(yǔ)音響應(yīng)搜索引擎118的更詳細(xì)視圖的框圖。 在一個(gè)實(shí)施例中,語(yǔ)音搜索引擎118包括N元文法(N-gram)生成器 202、音素生成器204、網(wǎng)格生成器208、統(tǒng)計(jì)模型生成器210以及N 元文法比較器212。語(yǔ)音響應(yīng)搜索引擎118通信地耦合到內(nèi)容數(shù)據(jù)庫(kù) 214和內(nèi)容索引216。在一個(gè)實(shí)施例中,內(nèi)容數(shù)據(jù)庫(kù)214可以存在于無(wú) 線設(shè)備104中、在中央服務(wù)器106、通信地耦合到無(wú)線通信網(wǎng)絡(luò)102的 系統(tǒng)、和/或直接耦合到無(wú)線設(shè)備104的系統(tǒng)上。內(nèi)容數(shù)據(jù)庫(kù)214包括一個(gè)或多個(gè)內(nèi)容文件218、 220。內(nèi)容文件可以是音頻文件、文本文件、視頻文件、圖像文件、多媒體文件
等。內(nèi)容索引216包括與內(nèi)容數(shù)據(jù)庫(kù)214中的各個(gè)內(nèi)容文件218、 220 相關(guān)聯(lián)的一個(gè)或多個(gè)索引222、 224。例如,如果內(nèi)容數(shù)據(jù)庫(kù)214中的 內(nèi)容文件1 218是音頻文件,則與內(nèi)容文件1 218相關(guān)聯(lián)的索引1 222 可以是音頻文件的標(biāo)題。換句話說(shuō),內(nèi)容文件218、 220與標(biāo)記文本項(xiàng) 相關(guān)聯(lián),其可以例如是所有歌曲標(biāo)題、或所有歌曲標(biāo)題和書標(biāo)題、或 所有類型的標(biāo)記文本項(xiàng)的所有標(biāo)記文本。標(biāo)記文本項(xiàng)可以由用戶來(lái)建 立,或可以通過內(nèi)容文件來(lái)獲得。例如,用戶可以選擇針對(duì)其創(chuàng)建標(biāo) 記文本項(xiàng)的內(nèi)容文件,或者可以從CD獲得歌曲的標(biāo)題。通過該討論, 可以互換使用"標(biāo)記文本項(xiàng)"、"標(biāo)記文本"、"內(nèi)容索引文件"和 "索引文件"。當(dāng)用戶期望檢索存在于無(wú)線設(shè)備104上或者另一個(gè)系統(tǒng)上 的內(nèi)容文件218、 220時(shí),用戶向無(wú)線設(shè)備104中說(shuō)出可聽話語(yǔ)226。 無(wú)線設(shè)備104經(jīng)由其麥克風(fēng)和音頻電路捕獲可聽話語(yǔ)226。例如,如果 用戶期望檢索歌曲的MP3文件,則用戶可以說(shuō)出歌曲的整個(gè)標(biāo)題或標(biāo) 題的一部分。然后由無(wú)線設(shè)備104來(lái)捕獲該話語(yǔ)。下面的討論使用以 下示例即音頻文件(即,歌曲)作為要檢索的內(nèi)容并且歌曲的標(biāo)題 作為索引。然而,這僅是一個(gè)示例,并且僅用于說(shuō)明性目的。如上所 述,內(nèi)容文件可以包括文本、音頻、靜止圖像和/或視頻。索引還可以 是歌曲的歌詞、文檔中的具體詞、圖像的元素或者在文件中找到的或 與文件相關(guān)聯(lián)的任何其它信息。在一個(gè)實(shí)施例中,語(yǔ)音響應(yīng)搜索引擎118使用自動(dòng)語(yǔ)音識(shí) 別來(lái)分析從用戶接收到的可聽話語(yǔ)。通常,自動(dòng)語(yǔ)音識(shí)別("ASR") 系統(tǒng)包括隱馬爾可夫模型("HMM")、語(yǔ)法約束以及詞典。如果約 束語(yǔ)法是音素循環(huán),則ASR系統(tǒng)使用從用戶的語(yǔ)音信號(hào)轉(zhuǎn)換的聲學(xué)特 征,并且產(chǎn)生音素網(wǎng)格作為輸出。該音素循環(huán)語(yǔ)法包括語(yǔ)言中的所有 音素。在一個(gè)實(shí)施例中,相等概率的音素循環(huán)語(yǔ)法被用于ASR,但是 該語(yǔ)法可以具有通過語(yǔ)言使用確定的概率。然而,如果語(yǔ)法確實(shí)具有通過語(yǔ)言使用確定的概率,則需要另外的存儲(chǔ)器資源。 ASR系統(tǒng)還可以基于詞循環(huán)語(yǔ)法。在發(fā)音詞典的幫助下, ASR系統(tǒng)將基于音素的HMM模型和聲學(xué)特征用作輸入,并且產(chǎn)生詞 網(wǎng)格作為輸出。詞語(yǔ)法可以基于在候選索引N元文法中使用的所有唯 一詞(當(dāng)添加了標(biāo)記文本時(shí)需要更新),但是替代地,可以基于更一 般的詞集合。該語(yǔ)法可以是相等概率的詞循環(huán)語(yǔ)法,但是可以具有通 過語(yǔ)言使用確定的概率。 N元文法生成器202分析內(nèi)容索引216,以創(chuàng)建與內(nèi)容索 引216中的每個(gè)標(biāo)記文本項(xiàng)222、 224相關(guān)聯(lián)的一個(gè)或多個(gè)索引N元文 法。通常,N元文法是來(lái)自給定序列的項(xiàng)的n個(gè)項(xiàng)的子序列。N元文法 可以是一元文法(unigram) (n=l) 、 二元文法(bi-gram) (n=2)、 三元文法(tri-gram) (n=3)等。出于本文檔的目的,索引N元文法 的項(xiàng)是取自內(nèi)容索引216的詞序列。索引N元文法是一類詞N元文法。 例如,用于句子"this is a test sentence"的詞二元文法是"this is " 、 " is a" 、 "atest" 、 "test sentence"。如可看到的,每個(gè)詞二元文法是來(lái) 自句子"this is atest sentence"的兩個(gè)詞的子序列。當(dāng)內(nèi)容索引文件222、 224包括與其他內(nèi)容索引文件相同的詞時(shí),針對(duì)相同的詞僅創(chuàng)建一個(gè)索 引二元文法。例如,考慮歌曲標(biāo)題"Let It Be"和"Let It Snow"。如 可看到的,兩首歌曲標(biāo)題都包括二元文法"Letlt"。因此,僅針對(duì)"Let It"創(chuàng)建一個(gè)二元文法并且這個(gè)二元文法索引兩首歌曲標(biāo)題。換句話 說(shuō), 一個(gè)索引一元文法、索引二元文法等可以索引兩個(gè)或多于兩個(gè)標(biāo) 記文本項(xiàng)222、 224。該數(shù)據(jù)結(jié)構(gòu)的使用允許用戶說(shuō)任何話,使得用戶 不必記住確切的句法。索引N元文法還用作索引項(xiàng)以使內(nèi)容搜索更有 效。如用于索引N元文法的N的典型值是2或3,盡管可以使用值1 或4或更大值。用于N的值1可以實(shí)質(zhì)上降低在此處教導(dǎo)的實(shí)施例中 使用的方法的精確度,而數(shù)字4或更高需要不斷增加的處理資源量, 且通常減少改進(jìn)量。
當(dāng)從用戶捕獲可聽話語(yǔ)226時(shí),語(yǔ)音響應(yīng)搜索引擎118將 話語(yǔ)226轉(zhuǎn)換成然后被存儲(chǔ)的聲學(xué)特征矢量?;谝羲匮h(huán)語(yǔ)法,網(wǎng) 格生成器208根據(jù)特征矢量創(chuàng)建與可聽話語(yǔ)226相關(guān)聯(lián)的音素網(wǎng)格。 音素網(wǎng)格的示例在圖3中示出。音素網(wǎng)格的生成比無(wú)線設(shè)備上的話語(yǔ) 的常規(guī)詞識(shí)別更有效。音素網(wǎng)格302包括在話語(yǔ)416中的開始和結(jié)束時(shí)間識(shí)別的 多個(gè)音素。每個(gè)音素可以與聲學(xué)得分(例如,概率得分)相關(guān)聯(lián)。音 素是相關(guān)口語(yǔ)語(yǔ)言的語(yǔ)音系統(tǒng)的單元,并且在口語(yǔ)語(yǔ)言中通常被感知 成單個(gè)獨(dú)特的聲音。在一個(gè)實(shí)施例中,可以在中央服務(wù)器106處執(zhí)行 音素網(wǎng)格的創(chuàng)建。 —旦生成了與可聽話語(yǔ)226相關(guān)聯(lián)的音素網(wǎng)格302,統(tǒng)計(jì) 模型生成器210就使用音素網(wǎng)格302生成話語(yǔ)中的音素的統(tǒng)計(jì)模型, 在下文中稱為音素網(wǎng)格統(tǒng)計(jì)模型。例如,該統(tǒng)計(jì)模型可以是這樣的表 格該表格包括對(duì)每個(gè)音素的概率估計(jì)或給定在前音素串條件下的每 個(gè)音素的條件概率。在某些實(shí)施例中,然后,使用音素網(wǎng)格統(tǒng)計(jì)模型 來(lái)估計(jì)由N元文法生成器202創(chuàng)建的索引N元文法。在一個(gè)實(shí)施例中, 音素生成器204使用發(fā)音詞典將每個(gè)索引N元文法翻譯成音素序列。 例如,如果索引N元文法是一元文法,則音素生成器204將單個(gè)詞索 引一元文法翻譯成其相應(yīng)的音素單元。如果索引N元文法是二元文法, 則音素生成器204將與索引二元文法相關(guān)聯(lián)的兩個(gè)詞翻譯成它們各自 的音素單元。發(fā)音詞典可以用于將索引N元文法中的每個(gè)詞翻譯成其 相應(yīng)的音素序列。在音素網(wǎng)格統(tǒng)計(jì)模型中可以使用的概率估計(jì)是音素條件 概率估計(jì)。通常,N元文法條件概率用于確定給定先前看到的項(xiàng)(多 個(gè))的條件下項(xiàng)X的條件概率,即p (項(xiàng)XI歷史項(xiàng)(多個(gè)))。換句 話說(shuō),N元文法條件概率用于基于在某項(xiàng)之前的N-l個(gè)項(xiàng)串確定該項(xiàng) 出現(xiàn)的概率。二元文法音素條件概率可以被表示為p (XN|XN.。。對(duì)于
14音素來(lái)說(shuō),如果已知一對(duì)音素的第一音素(XN.。,則二元文法條件 概率表示特定音素(XN)跟隨的可能性。音素一元文法"條件"概率 估計(jì)并不是真正的條件概率,而僅僅是X在給定音素集合中出現(xiàn)的概
率估計(jì)。平滑技術(shù)可以用于生成"改進(jìn)的"N元文法條件概率。例如,
可以根據(jù)一元文法和二元文法條件概率將經(jīng)平滑的條件三元文法條件
概率P (x|yz)估計(jì)為p(;cl少,z)^c^戶(xl乂z) + ;^; Oly) + j^p(;c) + f ,其 中a、 / 和y和s是基于實(shí)驗(yàn)的給定常數(shù),并且《 + ^ + ^ + 5 = 1。在其中使用了音素二元文法條件概率的一些實(shí)施例中,給 定根據(jù)用戶話語(yǔ)確定的音素網(wǎng)格L的條件下,統(tǒng)計(jì)模型生成器210將 與已經(jīng)針對(duì)其生成網(wǎng)格L的特定話語(yǔ)的索引N元文法相關(guān)聯(lián)的音素串 的 概 率 估 計(jì) pOca.....;cM|£) 計(jì) 算 為
丄),其中/ 0;2 "…義a/ I丄)是
具有音素串Xlx2.....&的索引N元文法在生成網(wǎng)格L所依據(jù)的話語(yǔ)中出 現(xiàn)的估計(jì)概率;并且根據(jù)音素網(wǎng)格統(tǒng)計(jì)模型的一元文法[p(;c,li:)]和二 元文法[p(;^ Ijcn,丄)]條件概率來(lái)確定/7(x^.....j^l丄)。與已經(jīng)針對(duì)其生 成網(wǎng)格L的特定話語(yǔ)的索引N元文法相關(guān)聯(lián)的音素串的出現(xiàn)概率或概 率估計(jì)p0ca.....&|丄)可以更 一 般地被確定為
Kw…"^ I丄)=pOi II Xi,丄)p(A I A,^,丄)…-pOM I1, j脅w,丄), 其中/7(;c,;c,.....xM l丄)是具有音素串a(chǎn)a.....xM的索引N元文法在生成網(wǎng)格
L所依據(jù)的話語(yǔ)中出現(xiàn)的估計(jì)概率;并且根據(jù)音素網(wǎng)格統(tǒng)計(jì)模型的N
元文法(例如,對(duì)于三元文法,N=3 )條件概率
/ (x, l丄),pO2 1x!,丄),….,; 0^ lv..xw+1—w,丄)來(lái)確定; (Xx2..…Xm |丄)。盡管
用于N元文法條件概率的N通常具有值2或3,但是可以使用諸如1、
4或更大的其他值。對(duì)于N的值1可以實(shí)質(zhì)上降低在此教導(dǎo)的實(shí)施例
的方法的精確度,而值4或更高需要不斷增加的處理資源量,通常降
低改進(jìn)量。值M,該值M辨別在索引N元文法中有多少音素,通???br>
以在范圍5至20中,但是可以更大或更小,并且M的范圍受到用于索
引N元文法的N值的顯著影響。該概率估計(jì)是在從O至1的范圍中的
數(shù)字,其用于分配索引N元文法的得分。例如,得分可以等于概率估
15計(jì),或者可以是概率估計(jì)的線性函數(shù),或者它可以是被項(xiàng)數(shù)除的概率 的對(duì)數(shù)。在某些實(shí)施例中,語(yǔ)音響應(yīng)搜索引擎118的N元文法比較 器212然后確定具有最高得分(概率估計(jì))的索引N元文法的候選列 表。例如,可以基于索引N元文法的得分選擇高的50個(gè)索引N元文法。 在該實(shí)施例中,選擇閾值以獲得特定數(shù)量的高評(píng)分索引N元文法。在 其他實(shí)施例中,可以在絕對(duì)級(jí)別選擇閾值,并且對(duì)于不同話語(yǔ),子集 可以包括不同數(shù)量的索引N元文法。可以使用確定閾值的其他方法。 應(yīng)當(dāng)注意,候選列表并不限于50個(gè)索引N元文法。在某些實(shí)施例中, 在創(chuàng)建了候選列表之后,語(yǔ)音響應(yīng)搜索引擎118根據(jù)候選列表中的唯 一詞來(lái)構(gòu)造詞循環(huán)語(yǔ)法。在一些實(shí)施例中,網(wǎng)格生成器208使用與可 聽話語(yǔ)226相關(guān)聯(lián)的聲學(xué)特征矢量,結(jié)合詞循環(huán)語(yǔ)法來(lái)生成詞網(wǎng)格402, 圖4中示出了其示例。詞網(wǎng)格402包括在可聽話語(yǔ)226中在開始和結(jié)束時(shí)間識(shí)別 的詞。在一個(gè)實(shí)施例中,在詞網(wǎng)格402中的每個(gè)詞可以與聲學(xué)得分相 關(guān)聯(lián)。在某些實(shí)施例中,統(tǒng)計(jì)模型生成器210生成與以上關(guān)于音素網(wǎng) 格302討論的音素網(wǎng)格統(tǒng)計(jì)模型相類似的詞網(wǎng)格統(tǒng)計(jì)模型。在一個(gè)實(shí) 施例中,創(chuàng)建了對(duì)詞網(wǎng)格402中的每個(gè)詞x的條件概率的估計(jì),諸如P (詞xl歷史詞)。P (詞xl歷史詞)是給定在前詞(歷史詞)的條件下 的詞x的概率。通常,可以使用一個(gè)歷史詞,并且每個(gè)這樣的條件概 率被稱為條件詞二元文法概率。在一些實(shí)施例中,可以使用以上討論的(高評(píng)分)索引N 元文法的候選列表來(lái)確定標(biāo)記文本項(xiàng)的子集(內(nèi)容索引文件)。僅將 包括來(lái)自候選列表的索引N元文法的標(biāo)記文本項(xiàng)添加到該子集。在整 個(gè)標(biāo)記文本集合中剩余的標(biāo)記文本項(xiàng)不必被評(píng)分,因?yàn)樗鼈儾话ㄈ?何候選索引N元文法。在某些實(shí)施例中,使用根據(jù)詞網(wǎng)格統(tǒng)計(jì)模型確 定的概率估計(jì)對(duì)標(biāo)記文本項(xiàng)的子集中的每個(gè)標(biāo)記文本項(xiàng)內(nèi)的詞串評(píng)分。換句話說(shuō),對(duì)于根據(jù)可聽話語(yǔ)確定的詞網(wǎng)格W,可以根據(jù)詞網(wǎng)格 統(tǒng)計(jì)模型的詞 N 元文法條件概率 |",/^2 l^+.J^—p,)將子集標(biāo)記文本項(xiàng)的詞串
Ax2.....的概率估計(jì)p(;c,;c2.....~|『)確定為 P(x^.....& I『)=I釅)/^2 I I xM—,,w,『)。該概率估計(jì)
用于分配標(biāo)記文本項(xiàng)的得分。例如,得分可以等于概率估計(jì)或可以是 概率估計(jì)的線性函數(shù)。閾值可以是與被用于確定高評(píng)分索引N元文法
的類型不同的類型,并且如果是相同類型,則它可以具有不同的值(即, 可以選擇高的5個(gè)標(biāo)記文本項(xiàng)用于標(biāo)記文本項(xiàng)的子集,同時(shí)可以選擇 高的30個(gè)索引N元文法用于索引N元文法的子集)。應(yīng)當(dāng)理解,生成 標(biāo)記文本項(xiàng)的子集是可選的,因?yàn)槿绻袠?biāo)記文本項(xiàng)被評(píng)分,則不 包括任何索引N元文法的候選列表的那些標(biāo)記文本項(xiàng)的得分將是最低 的。使用子集通常節(jié)省處理資源。在某些實(shí)施例中,標(biāo)記文本項(xiàng)的子集中的每個(gè)標(biāo)記文本項(xiàng) 內(nèi)的詞串被翻譯成音素串,使用根據(jù)音素網(wǎng)格統(tǒng)計(jì)模型確定的概率估 計(jì)來(lái)對(duì)該音素串評(píng)分,并且不執(zhí)行上述的幾個(gè)介于中間的過程。特別 地,不必執(zhí)行詞網(wǎng)格的生成以及詞網(wǎng)格統(tǒng)計(jì)模型的確定。換句話說(shuō), 可以根據(jù)音素網(wǎng)格統(tǒng)計(jì)模型的N元文法音素條件概率
I丄),;7(;c21 ^,£),....,p(^ I ,...xM+1—w, ZO將標(biāo)記文本項(xiàng)的子集中的每 個(gè)標(biāo)記文本項(xiàng)的音素串xlX2.....xM的概率估計(jì)/ 0^2.....;cM l丄)確定為 P(Xx2"…I丄)=POi II A,丄)….p0^ I ,其中串
X^2….XM表示用于表示標(biāo)記文本項(xiàng)的音素的整個(gè)串。然后可以根據(jù)概
率估計(jì)來(lái)確定得分。在某些實(shí)施例中,在標(biāo)記文本項(xiàng)集合中的每個(gè)標(biāo)記文本項(xiàng) 內(nèi)的詞串被翻譯成音素串,使用根據(jù)音素網(wǎng)格統(tǒng)計(jì)模型確定的概率估 計(jì)來(lái)對(duì)該音素串評(píng)分,而不是根據(jù)詞網(wǎng)格統(tǒng)計(jì)模型確定的標(biāo)記文本項(xiàng) 的得分,并且不執(zhí)行幾個(gè)介于中間的過程。特別地,不執(zhí)行使用音素 網(wǎng)格統(tǒng)計(jì)模型對(duì)索引N元文法的估計(jì)、對(duì)高評(píng)分索引N元文法的候選列表的確定、對(duì)標(biāo)記文本項(xiàng)的子集的確定、詞網(wǎng)格的生成以及對(duì)詞網(wǎng) 格統(tǒng)計(jì)模型的確定。換句話說(shuō),對(duì)于根據(jù)可聽話語(yǔ)確定的音素網(wǎng)格L, 可以根據(jù)音素網(wǎng)格統(tǒng)計(jì)模型的音素條件概率
<formula>formula see original document page 18</formula>將每個(gè)標(biāo)記文本項(xiàng)的音素串
x^2.....xM的概率估計(jì) ..…確定為 <formula>formula see original document page 18</formula>其中串 x^2.…xm表示用于表示標(biāo)記文本項(xiàng)的音素的整個(gè)串。然后可以根據(jù)概
率估計(jì)來(lái)確定得分。應(yīng)當(dāng)理解,所有標(biāo)記文本項(xiàng)被評(píng)分,因?yàn)樵谠搶?shí) 施例中沒有確定任何標(biāo)記文本項(xiàng)的子集。換而言之,該實(shí)施例類似于 先前的實(shí)施例,但是標(biāo)記文本項(xiàng)的子集與標(biāo)記文本項(xiàng)的集合等同。然后,語(yǔ)音響應(yīng)搜索引擎可以使用一個(gè)或多個(gè)輸出模態(tài)來(lái) 呈現(xiàn)具有最高得分的標(biāo)記文本文件,用戶可以根據(jù)其選擇內(nèi)容文件
218、 220中的一個(gè)作為話語(yǔ)所參考的那個(gè),所述輸出模態(tài)諸如顯示以 及文本到語(yǔ)音模態(tài)。在某些實(shí)施例中,例如,當(dāng)最高評(píng)分標(biāo)記文本項(xiàng) 的得分與所有其他標(biāo)記文本項(xiàng)的得分的不同,不同的量為足夠差量 (margin)時(shí),僅將最高評(píng)分標(biāo)記文本項(xiàng)呈現(xiàn)給用戶,并且呈現(xiàn)與最高 評(píng)分標(biāo)記文本項(xiàng)相關(guān)聯(lián)的內(nèi)容文件。替代地,在該情況下,在不呈現(xiàn) 最高評(píng)分標(biāo)記文本項(xiàng)的情況下呈現(xiàn)與最高評(píng)分標(biāo)記文本項(xiàng)相關(guān)聯(lián)的內(nèi) 容文件,在某些實(shí)施例中,可以根據(jù)高評(píng)分N元文法的候選列表來(lái)確 定高評(píng)分標(biāo)記文本項(xiàng)。在某些實(shí)施例中,不生成詞網(wǎng)格。而且,關(guān)于 圖2討論的所有或部分處理可以由中央服務(wù)器106或耦合到無(wú)線設(shè)備 104的另一系統(tǒng)來(lái)執(zhí)行。如可以看出的,本發(fā)明利用語(yǔ)音響應(yīng)搜索基于從用戶接收 到的可聽話語(yǔ)來(lái)檢索內(nèi)容。在匹配過程中,在索引文件中的索引N元 文法或詞集合被視為査詢,并且音素網(wǎng)格和/或詞網(wǎng)格被視為要搜索的 文檔。音素序列的重復(fù)出現(xiàn)提供校正以及然后的對(duì)音素序列的分辨力。 條件網(wǎng)格模型用于對(duì)音素級(jí)別上的査詢?cè)u(píng)分以辨別高的短語(yǔ)選擇。在
兩階段方法中,基于音素網(wǎng)格找到詞,并且基于詞網(wǎng)格找到標(biāo)記文本項(xiàng)。因此,本發(fā)明克服了在移動(dòng)設(shè)備上ASR 口述所面對(duì)的困難。本發(fā)
明提供了一種易于在移動(dòng)設(shè)備上實(shí)現(xiàn)的快速且有效的語(yǔ)音響應(yīng)搜索引 擎。本發(fā)明允許用戶利用任何詞(多個(gè))或部分短語(yǔ)來(lái)檢索內(nèi)容。無(wú)線通信設(shè)備圖5是圖示根據(jù)本發(fā)明的實(shí)施例的無(wú)線通信設(shè)備104的詳 細(xì)視圖的框圖。無(wú)線通信設(shè)備104在控制無(wú)線通信信號(hào)的發(fā)送和接收 的設(shè)備控制器/處理器502的控制下操作。在接收模式下,設(shè)備控制器 502通過發(fā)射/接收開關(guān)506將天線504電耦合到接收機(jī)508。接收機(jī) 508解碼接收到的信號(hào),并且將那些解碼的信號(hào)提供到設(shè)備控制器502。在發(fā)射模式下,設(shè)備控制器502通過發(fā)射/接收開關(guān)506 將天線504電耦合到發(fā)射機(jī)510。設(shè)備控制器502根據(jù)存儲(chǔ)器512中存 儲(chǔ)的指令來(lái)操作發(fā)射機(jī)和接收機(jī)。這些指令包括例如鄰居小區(qū)測(cè)量調(diào) 度算法。在一個(gè)實(shí)施例中,存儲(chǔ)器512還包括以上討論的語(yǔ)音響應(yīng)搜 索引擎118。應(yīng)當(dāng)理解,圖5所示的語(yǔ)音響應(yīng)搜索引擎118還包括關(guān)于 圖2詳細(xì)討論的一個(gè)或多個(gè)組件。出于簡(jiǎn)單的目的在圖5中未示出這 些組件。在一個(gè)實(shí)施例中,存儲(chǔ)器512還包括內(nèi)容數(shù)據(jù)庫(kù)214和內(nèi)容 索引216。無(wú)線通信設(shè)備104還包括用于存儲(chǔ)例如等待在無(wú)線通信設(shè) 備104上執(zhí)行的應(yīng)用的非易失性貯存存儲(chǔ)器514。在該示例中,無(wú)線通 信設(shè)備104還包括可選的本地?zé)o線鏈路516,該本地?zé)o線鏈路516允許 無(wú)線通信設(shè)備104在不使用無(wú)線網(wǎng)絡(luò)(未示出)的情況下與另一無(wú)線 設(shè)備直接通信??蛇x的本地?zé)o線鏈路516例如由藍(lán)牙(Bluetooth)、 紅外數(shù)據(jù)訪問(IrDA)技術(shù)等提供??蛇x的本地?zé)o線鏈路516還包括 本地?zé)o線鏈路發(fā)射/接收模塊518,該本地?zé)o線鏈路發(fā)射/接收模塊518 允許無(wú)線通信設(shè)備104與另一無(wú)線通信設(shè)備直接通信,該另一無(wú)線通 信設(shè)備諸如通信地耦合到個(gè)人計(jì)算機(jī)、工作站等的無(wú)線通信設(shè)備。
圖5的無(wú)線通信設(shè)備104進(jìn)一步包括音頻輸出控制器520, 該音頻輸出控制器520接收來(lái)自接收機(jī)508或本地?zé)o線鏈路發(fā)射/接收 模塊518的解碼音頻輸出信號(hào)。音頻控制器520將接收到的解碼音頻 信號(hào)發(fā)送到音頻輸出調(diào)節(jié)電路522,該音頻輸出調(diào)節(jié)電路522執(zhí)行多種 調(diào)節(jié)功能。例如,音頻輸出調(diào)節(jié)電路522可以降低噪聲或放大信號(hào)。 揚(yáng)聲器524接收調(diào)節(jié)的音頻信號(hào)并且允許用于由用戶收聽的音頻輸出。 音頻輸出控制器520、音頻輸出調(diào)節(jié)電路522和揚(yáng)聲器524還允許生成 通知用戶未接呼叫、接收到的消息等的可聽提醒。無(wú)線通信設(shè)備104 進(jìn)一步包括另外的用戶輸出接口 526,例如,頭戴式耳機(jī)插孔(未示出) 或者免持揚(yáng)聲器(未示出)。無(wú)線通信設(shè)備104還包括麥克風(fēng)528,用于允許用戶將音 頻信號(hào)輸入到無(wú)線通信設(shè)備104。聲波由麥克風(fēng)528接收并且被轉(zhuǎn)換為 電音頻信號(hào)。音頻輸入調(diào)節(jié)電路530接收該音頻信號(hào)并且對(duì)該音頻信 號(hào)執(zhí)行多種調(diào)節(jié)功能,諸如噪聲降低。音頻輸入控制器532接收調(diào)節(jié) 的音頻信號(hào)并且將該音頻信號(hào)的表達(dá)發(fā)送到設(shè)備控制器502。無(wú)線通信設(shè)備104還包括鍵盤534,用于允許用戶將信息 輸入到無(wú)線通信設(shè)備104中。無(wú)線通信設(shè)備104進(jìn)一步包括照相機(jī)536, 用于允許用戶將靜止圖像或視頻圖像捕獲到存儲(chǔ)器512中。此外,無(wú) 線通信設(shè)備104包括另外的用戶輸入接口 538,例如,觸摸屏技術(shù)(未 示出)、操縱桿(未示出)或者滾輪(未示出)。在一個(gè)實(shí)施例中, 還包括外圍接口 (未示出),用于允許數(shù)據(jù)線纜連接到無(wú)線通信設(shè)備 104。在本發(fā)明的一個(gè)實(shí)施例中,數(shù)據(jù)線纜的連接允許無(wú)線通信設(shè)備104 連接到計(jì)算機(jī)或打印機(jī)。在無(wú)線通信設(shè)備104上還包括視覺通知(或指示)接口 540,用于向無(wú)線通信設(shè)備104的用戶呈遞視覺通知(或者視覺指示), 例如,顯示器544上的彩色光序列,或者閃爍的一個(gè)或多個(gè)LED (未 示出)。例如,接收到的多媒體消息可以包括作為該消息的一部分的、將要向用戶顯示的彩色光序列。替代地,當(dāng)無(wú)線通信設(shè)備104接收到
消息或者用戶未接呼叫時(shí),通過在顯示器544或者LED上顯示彩色光 序列或者單個(gè)閃爍光,可以將視覺通知接口 540用作提醒。無(wú)線通信設(shè)備104還包括觸覺接口 542,用于傳遞振動(dòng)媒 體分量、觸覺提醒等。例如,由無(wú)線通信設(shè)備104接收到的多媒體消 息可以包括在多媒體消息的回放中提供振動(dòng)的視頻媒體分量。在一個(gè) 實(shí)施例中,在無(wú)線通信設(shè)備104的靜音模式期間使用觸覺接口 542,以 向用戶提醒進(jìn)入呼叫或消息、未接呼叫等。觸覺接口 542允許例如通 過振動(dòng)電機(jī)等使該振動(dòng)發(fā)生。無(wú)線通信設(shè)備104還包括顯示器540和可選的全球定位系 統(tǒng)(GPS)模塊546,該顯示器用于向無(wú)線通信設(shè)備104的用戶顯示信 息??蛇x的GPS模塊546確定無(wú)線通信設(shè)備104的位置和/或速度信息。 該模塊546使用GPS衛(wèi)星系統(tǒng)來(lái)確定無(wú)線通信設(shè)備104的位置和/或速 度。作為GPS模塊546的替代,無(wú)線通信設(shè)備104可以包括用于例如 使用小區(qū)塔臺(tái)三角測(cè)量和輔助GPS來(lái)確定無(wú)線通信設(shè)備104的位置和/ 或速度的替代模塊。信息處理系統(tǒng)圖6是圖示根據(jù)本發(fā)明的實(shí)施例的中央服務(wù)器106的詳細(xì) 視圖的框圖。應(yīng)當(dāng)注意,以下討論也可應(yīng)用于耦合到無(wú)線設(shè)備104的 任何信息處理。在一個(gè)實(shí)施例中,中央服務(wù)器106基于適當(dāng)配置的處 理系統(tǒng),該處理系統(tǒng)適于實(shí)現(xiàn)本發(fā)明的示例性實(shí)施例。任何適當(dāng)配置 的處理系統(tǒng)類似地能夠由本發(fā)明的實(shí)施例用作中央服務(wù)器106,例如, 個(gè)人計(jì)算機(jī)、工作站等。中央服務(wù)器106包括計(jì)算機(jī)602。計(jì)算機(jī)602具有處理器 604,該處理器604通信地連接到主存儲(chǔ)器606(例如,易失性存儲(chǔ)器)、 非易失性存儲(chǔ)接口 608、終端接口 610、網(wǎng)絡(luò)適配器硬件612,并且系
21統(tǒng)總線614使這些系統(tǒng)組件互連。非易失性存儲(chǔ)接口 608用于將諸如 數(shù)據(jù)存儲(chǔ)設(shè)備616的大容量存儲(chǔ)設(shè)備連接到中央服務(wù)器106。 一個(gè)具體 類型的數(shù)據(jù)存儲(chǔ)設(shè)備是諸如CD驅(qū)動(dòng)器的計(jì)算機(jī)可讀介質(zhì),該CD驅(qū)動(dòng) 器可用于將數(shù)據(jù)存儲(chǔ)到CD或DVD 618或者軟盤(未示出)并且從CD 或DVD 618或者軟盤讀取數(shù)據(jù)。另一類型的數(shù)據(jù)存儲(chǔ)設(shè)備是被配置成 支持例如NTFS類型文件系統(tǒng)操作的數(shù)據(jù)存儲(chǔ)設(shè)備。主存儲(chǔ)器606包括可選的語(yǔ)音響應(yīng)搜索引擎120,該語(yǔ)音 響應(yīng)搜索引擎120包括關(guān)于圖2討論的一個(gè)或多個(gè)組件。主存儲(chǔ)器606 還可以可選地包括與以上關(guān)于圖2討論的內(nèi)容數(shù)據(jù)庫(kù)214和內(nèi)容索引 216相類似的內(nèi)容數(shù)據(jù)庫(kù)620和/或內(nèi)容索引622。盡管被示出為同時(shí)駐 留在主存儲(chǔ)器606中,但是清楚的是,主存儲(chǔ)器606的各個(gè)組件不一 定總是或甚至同時(shí)完全駐留在主存儲(chǔ)器606中。在一個(gè)實(shí)施例中,中央服務(wù)器106利用常規(guī)的虛擬尋址機(jī) 制以允許程序的行為如同其接入在此處被稱為計(jì)算機(jī)系統(tǒng)存儲(chǔ)器的大 的單個(gè)存儲(chǔ)實(shí)體,而不是接入諸如主存儲(chǔ)器606和數(shù)據(jù)存儲(chǔ)設(shè)備416 的多個(gè)較小的存儲(chǔ)實(shí)體。注意到,此處使用的術(shù)語(yǔ)"計(jì)算機(jī)系統(tǒng)存儲(chǔ) 器"通常指的是中央服務(wù)器106的整個(gè)虛擬存儲(chǔ)器。盡管對(duì)于計(jì)算機(jī)602僅圖示了一個(gè)CPU604,但是可以同 樣有效地使用具有多個(gè)CPU的計(jì)算機(jī)系統(tǒng)。本發(fā)明的實(shí)施例進(jìn)一步并 入了接口,每個(gè)接口包括分離的、完全編程的微處理器,這些微處理
器用于分擔(dān)CPU 604的處理。終端接口 610用于將一個(gè)或多個(gè)終端624 直接連接到計(jì)算機(jī)602,以向計(jì)算機(jī)602提供用戶接口。能夠是非智能 的或者完全可編程的工作站的這些終端624用于允許系統(tǒng)管理員和用 戶與弱功能客戶機(jī)(thin client)通信。終端624還能夠由用戶接口和 外圍設(shè)備構(gòu)成,該外圍設(shè)備連接到計(jì)算機(jī)602并且由終端I/F 610中所 包括的終端接口硬件控制,該終端1/F610包括視頻適配器和用于鍵盤、 定點(diǎn)設(shè)備等的接口。
22
根據(jù)實(shí)施例,主存儲(chǔ)器中可以包括操作系統(tǒng)(未示出), 并且該操作系統(tǒng)是適當(dāng)?shù)亩嗳蝿?wù)操作系統(tǒng),諸如Linux、UNIX、Windows XP和Windows Server 2003操作系統(tǒng)。本發(fā)明的實(shí)施例能夠使用任何 其他適當(dāng)?shù)牟僮飨到y(tǒng)或內(nèi)核,或者其他適當(dāng)?shù)目刂栖浖?。本發(fā)明的一 些實(shí)施例利用諸如面向?qū)ο蟮目蚣軝C(jī)制的架構(gòu),其允許在位于客戶端 中的任何處理器上執(zhí)行操作系統(tǒng)的組件(未示出)的指令。網(wǎng)絡(luò)適配 器硬件612用于向網(wǎng)絡(luò)102提供接口。本發(fā)明的實(shí)施例能夠適于利用 包括現(xiàn)今的模擬和/或數(shù)字技術(shù)的或者經(jīng)由未來(lái)的聯(lián)網(wǎng)機(jī)制的任何數(shù)據(jù) 通信連接來(lái)進(jìn)行工作。盡管在功能全面的計(jì)算機(jī)系統(tǒng)的背景下描述了本發(fā)明的 示例性實(shí)施例,但是本領(lǐng)域的技術(shù)人員將理解,這些實(shí)施例能夠作為 程序產(chǎn)品經(jīng)由CD-ROM/DVD-ROM (RAM) 618或者其他形式的可記 錄介質(zhì),或者經(jīng)由任何類型的電子傳輸機(jī)制來(lái)分發(fā)。創(chuàng)建索引N元文法的過程圖7是圖示創(chuàng)建索引N元文法的過程的操作圖。圖7的操 作流程圖開始于步驟702并且直接流向步驟704。在步驟704,語(yǔ)音響 應(yīng)搜索引擎118分析內(nèi)容數(shù)據(jù)庫(kù)214中的內(nèi)容218、 220。在步驟706, 針對(duì)內(nèi)容數(shù)據(jù)庫(kù)214中的每個(gè)內(nèi)容文件218、 220辨別或生成諸如222、 224的標(biāo)記文本項(xiàng)(內(nèi)容索引文件),在一些實(shí)施例中,這依賴于用戶 輸入,從而建立標(biāo)記文本項(xiàng)集合。在步驟708,語(yǔ)音響應(yīng)搜索引擎118 分析每個(gè)標(biāo)記文本項(xiàng)708。在步驟710,針對(duì)在每個(gè)標(biāo)記文本項(xiàng)222、 224中的每個(gè)詞組合生成N元文法,其中針對(duì)每個(gè)唯一詞組合僅創(chuàng)建 一個(gè)N元文法,從而生成索引N元文法集合。每個(gè)N元文法是至少一 個(gè)標(biāo)記文本項(xiàng)的序列子集。然后,控制流程在步驟712退出。使用語(yǔ)音響應(yīng)搜索引擎檢索期望內(nèi)容的過程圖8至11是圖示使用語(yǔ)音響應(yīng)搜索引擎檢索期望內(nèi)容的過程的操作流程圖。圖8的操作流程圖開始于步驟802,并且直接流向 步驟804。在步驟804,語(yǔ)音響應(yīng)搜索引擎118從用戶接收可聽話語(yǔ)226。 例如,用戶可能期望收聽歌曲并且說(shuō)出歌曲的標(biāo)題。在步驟806,語(yǔ)音響應(yīng)搜索引擎118將話語(yǔ)226轉(zhuǎn)換成特 征矢量并且存儲(chǔ)它們。在步驟808,如以上討論的,根據(jù)特征矢量生成 音素網(wǎng)格。在步驟810,語(yǔ)音響應(yīng)搜索引擎118基于音素網(wǎng)格、音素網(wǎng) 格統(tǒng)計(jì)模型創(chuàng)建音素的統(tǒng)計(jì)模型。在一個(gè)實(shí)施例中,統(tǒng)計(jì)模型包括對(duì) 音素網(wǎng)格中的每個(gè)音素的概率估計(jì)。例如,音素網(wǎng)格統(tǒng)計(jì)模型可以辨 別音素在音素網(wǎng)格中出現(xiàn)的可能性。如上所述,條件概率也可以被包 括在音素網(wǎng)格統(tǒng)計(jì)模型中。在步驟812,將每個(gè)索引N元文法翻譯成 其相應(yīng)的音素串。在步驟814,將每個(gè)索引N元文法的音素串與音素網(wǎng)格統(tǒng) 計(jì)模型相比較,以確定根據(jù)音素網(wǎng)格統(tǒng)計(jì)估計(jì)的哪些概率估計(jì)將被用 于對(duì)音素串評(píng)分。在步驟816,語(yǔ)音響應(yīng)搜索引擎118基于根據(jù)音素網(wǎng) 格統(tǒng)計(jì)模型確定的概率估計(jì)對(duì)索引N元文法的每個(gè)音素串評(píng)分。例如, 如果索引N元文法包括詞集合"Letit",則將其翻譯成音素串。然后, 語(yǔ)音響應(yīng)搜索引擎118根據(jù)統(tǒng)計(jì)模型計(jì)算與"Let it"相關(guān)聯(lián)的概率估 計(jì),并且相應(yīng)地對(duì)索引N元文法的音素串評(píng)分。然后,在步驟818, 生成高評(píng)分索引N元文法的候選列表。在某些實(shí)施例中,控制流向圖9的進(jìn)入點(diǎn)A。在步驟902, 根據(jù)高評(píng)分索引N元文法生成詞網(wǎng)格。在步驟904,語(yǔ)音響應(yīng)搜索引 擎118在步驟904基于詞網(wǎng)格創(chuàng)建統(tǒng)計(jì)模型。在一個(gè)實(shí)施例中,詞網(wǎng) 格統(tǒng)計(jì)模型包括對(duì)詞網(wǎng)格中的每個(gè)詞的概率估計(jì)。例如,統(tǒng)計(jì)模型可 以辨別詞或詞集合在詞網(wǎng)格中出現(xiàn)的可能性。如上所述,條件概率也 可以被包括在詞網(wǎng)格統(tǒng)計(jì)模型中。在步驟906,使用高評(píng)分索引N元 文法根據(jù)標(biāo)記文本項(xiàng)集合216創(chuàng)建標(biāo)記文本項(xiàng)子集。
在步驟卯8,將子集中每個(gè)標(biāo)記文本項(xiàng)與詞的詞網(wǎng)格統(tǒng)計(jì) 模型相比較,以確定根據(jù)詞網(wǎng)格統(tǒng)計(jì)模型的哪些概率估計(jì)將被用于對(duì) 標(biāo)記文本項(xiàng)評(píng)分。在步驟910,語(yǔ)音響應(yīng)搜索引擎118基于使用詞網(wǎng)格 統(tǒng)計(jì)模型針對(duì)標(biāo)記文本的詞串確定的概率估計(jì)來(lái)對(duì)子集中的每個(gè)標(biāo)記 文本項(xiàng)評(píng)分。例如,如果詞N元文法包括詞集合"let it",則語(yǔ)音響 應(yīng)搜索引擎118辨別與統(tǒng)計(jì)模型中的"letit"音素串相關(guān)聯(lián)的概率估計(jì), 并且相應(yīng)地對(duì)詞串評(píng)分。然后,在步驟912,創(chuàng)建標(biāo)記文本項(xiàng)的子集中 的高評(píng)分標(biāo)記文本項(xiàng)列表。然后,在步驟916,向用戶顯示這些高評(píng)分 標(biāo)記文本項(xiàng)。然后控制流在步驟918退出。然后,用戶可以選擇標(biāo)記 文本項(xiàng)中的一個(gè),并且可以檢索相關(guān)聯(lián)的內(nèi)容文件用于用戶的使用。圖10是圖示使用語(yǔ)音響應(yīng)搜索引擎檢索期望內(nèi)容的實(shí)施 例的操作流程圖。圖10的操作流程圖從圖8的步驟810流至步驟1004。 在步驟1004,語(yǔ)音響應(yīng)搜索引擎118將每個(gè)標(biāo)記文本項(xiàng)翻譯成相應(yīng)的 音素串。然后,在步驟1006,將標(biāo)記文本項(xiàng)的每個(gè)音素串與音素網(wǎng)格 統(tǒng)計(jì)模型相比較,以確定根據(jù)音素網(wǎng)格統(tǒng)計(jì)模型的哪些概率估計(jì)將被 用于對(duì)標(biāo)記文本的音素串評(píng)分。在步驟1008,使用根據(jù)音素網(wǎng)格統(tǒng)計(jì) 模型的概率估計(jì)對(duì)標(biāo)記文本項(xiàng)的每個(gè)音素串評(píng)分。在步驟1010,語(yǔ)音 響應(yīng)搜索引擎118生成高評(píng)分標(biāo)記文本項(xiàng)列表。在步驟1014,向用戶 顯示高評(píng)分標(biāo)記文本項(xiàng)列表??刂屏飨虿襟E1016。然后,用戶可以選 擇標(biāo)記文本項(xiàng)中的一個(gè),并且然后,可以檢索與其相關(guān)聯(lián)的內(nèi)容文件 (多個(gè))用于用戶按需使用。圖11是圖示使用語(yǔ)音響應(yīng)搜索引擎檢索期望內(nèi)容的另一 個(gè)過程的操作流程圖。圖10的操作流程圖從進(jìn)入點(diǎn)A直接流向步驟 1102。在步驟1102,語(yǔ)音響應(yīng)搜索引擎118使用高評(píng)分索引N元文法 的候選列表根據(jù)標(biāo)記文本項(xiàng)集合216生成標(biāo)記文本子集。然后,在步 驟1104,將標(biāo)記文本項(xiàng)子集中的標(biāo)記文本項(xiàng)的每個(gè)音素串與音素網(wǎng)格 統(tǒng)計(jì)模型相比較,以確定根據(jù)音素網(wǎng)格統(tǒng)計(jì)模型的哪些概率將被用于 對(duì)標(biāo)記文本的音素串評(píng)分。在步驟1106,使用根據(jù)音素網(wǎng)格統(tǒng)計(jì)模型
25的概率對(duì)標(biāo)記文本項(xiàng)子集中的標(biāo)記文本項(xiàng)的每個(gè)音素串評(píng)分。在步驟
1108,語(yǔ)音響應(yīng)搜索引擎118生成標(biāo)記文本子集中的高評(píng)分標(biāo)記文本 項(xiàng)列表。在步驟1110,向用戶呈現(xiàn)高評(píng)分標(biāo)記文本項(xiàng)列表??刂屏飨?步驟1112。然后,用戶可以選擇標(biāo)記文本項(xiàng)中的一個(gè),并且然后,可 以檢索與其相關(guān)聯(lián)的內(nèi)容文件(多個(gè))用于用戶按需使用。非限制性示例盡管已經(jīng)公開了本發(fā)明的具體實(shí)施例,但是本領(lǐng)域的普通 技術(shù)人員將理解,在不背離本發(fā)明的精神和范圍的前提下可以對(duì)具體 實(shí)施例進(jìn)行改變。因此,本發(fā)明的范圍不限于具體實(shí)施例,并且所附 權(quán)利要求意在涵蓋本發(fā)明范圍內(nèi)的任何和所有這樣的應(yīng)用、修改和實(shí) 施例。
權(quán)利要求
1.一種與無(wú)線通信設(shè)備一起使用的方法,所述方法用于使用語(yǔ)音識(shí)別從內(nèi)容文件集合中選擇內(nèi)容文件,所述方法包括建立標(biāo)記文本項(xiàng)集合,其中,每個(gè)標(biāo)記文本項(xiàng)與所述內(nèi)容文件集合中的一個(gè)內(nèi)容文件唯一地關(guān)聯(lián);從用戶接收至少一個(gè)可聽話語(yǔ);辨別與所接收到的可聽話語(yǔ)相關(guān)聯(lián)的音素集合;基于所辨別的音素集合生成音素網(wǎng)格;基于所述音素網(wǎng)格生成音素網(wǎng)格統(tǒng)計(jì)模型;基于所述音素網(wǎng)格統(tǒng)計(jì)模型向所述標(biāo)記文本項(xiàng)集合的子集中的每個(gè)標(biāo)記文本項(xiàng)分配得分;以及呈現(xiàn)具有比閾值高的得分的一個(gè)或多個(gè)所述標(biāo)記文本項(xiàng)。
2. 根據(jù)權(quán)利要求l所述的方法,其中,所述標(biāo)記文本項(xiàng)集合的子 集是所述標(biāo)記文本項(xiàng)的整個(gè)集合。
3. 根據(jù)權(quán)利要求2所述的方法,其中,根據(jù)估計(jì)概率pO"2…"Xm I丄)=p(X I丄)尸021 a,丄)…./ 0^ I Xj^"…;^+u,丄)確定向每個(gè)標(biāo)記文本項(xiàng)分配的得分,其中/ (x^.....xM |£)是具有音素串JC^.....~的標(biāo) 記文本項(xiàng)在生成音素網(wǎng)格(L)所依據(jù)的話語(yǔ)中出現(xiàn)的估計(jì)概率,并且根據(jù)包括在所述音素網(wǎng)格統(tǒng)計(jì)模型中的概率估計(jì)POi |丄),/ 02 Ia,Z),…"; (Xw |xm_1v.,;^+1—w,Z)來(lái)確定pO一2..…|丄)。
4. 根據(jù)權(quán)利要求l所述的方法,其中,所述標(biāo)記文本項(xiàng)集合的子 集通過以下來(lái)確定根據(jù)所述標(biāo)記文本項(xiàng)集合生成索引N元文法集合;其中每個(gè)索引 N元文法是至少一個(gè)所述標(biāo)記文本項(xiàng)的子集;基于所述音素網(wǎng)格統(tǒng)計(jì)模型向索引N元文法集合中的每個(gè)索引N 元文法分配得分;以及將包括具有比第一閾值大的分配得分的索引N元文法的那些標(biāo)記 文本項(xiàng)包括在所述標(biāo)記文本項(xiàng)的子集中。
5. 根據(jù)權(quán)利要求4所述的方法,其中,所述索引N元文法集合中的 每個(gè)索引N元文法是唯一的,并且是至少一個(gè)標(biāo)記文本項(xiàng)的序列子集。
6. 根據(jù)權(quán)利要求4所述的方法,其中,向索引N元文法集合中的 每個(gè)索引N元文法分配得分進(jìn)一步包括將每個(gè)索引N元文法翻譯成相應(yīng)的音素串;以及 基于根據(jù)所述音素網(wǎng)格統(tǒng)計(jì)模型獲得的概率估計(jì)向每個(gè)索引N元 文法分配得分。
7. 根據(jù)權(quán)利要求6所述的方法,其中,根據(jù)估計(jì)概率 .….xj丄)|Z)p02 Ix"L).…; (;^IXw.;c^M,丄)確定向每個(gè)索引N元文法分配的得分,其中P(;^2.....;cJZ)是具有音素串;c^.....x^的索引 N元文法在生成音素網(wǎng)格(L)所依據(jù)的話語(yǔ)中出現(xiàn)的估計(jì)概率,并且 根據(jù)包括在所述音素網(wǎng)格統(tǒng)計(jì)模型中的概率估計(jì) POi ki,丄)"…,; OM Ij^屮…;^+M,Z)來(lái)確定; (Xx2..…xw |丄)。
8. —種與無(wú)線通信設(shè)備一起使用的方法,所述方法用于從內(nèi)容文件集合中選擇內(nèi)容文件,所述方法包括建立標(biāo)記文本項(xiàng)集合,其中,每個(gè)標(biāo)記文本項(xiàng)與所述內(nèi)容文件集 合中的一個(gè)內(nèi)容文件唯一地關(guān)聯(lián);根據(jù)所述標(biāo)記文本項(xiàng)集合生成索引N元文法集合; 從用戶接收至少一個(gè)可聽話語(yǔ); 基于所接收到的至少一個(gè)可聽話語(yǔ)生成音素網(wǎng)格; 基于所述音素網(wǎng)格生成音素網(wǎng)格統(tǒng)計(jì)模型;基于所述音素網(wǎng)格統(tǒng)計(jì)模型向所述索引N元文法集合中的每個(gè)索 引N元文法分配得分;確定所述索引N元文法集合的子集,其中所述子集中的所述索引n元文法具有比第一閾值大的分配得分;基于所述索引n元文法的子集生成詞網(wǎng)格; 基于所述詞網(wǎng)格生成詞網(wǎng)格統(tǒng)計(jì)模型;向所述標(biāo)記文本項(xiàng)集合的子集中的每個(gè)標(biāo)記文本項(xiàng)分配得分,其中所述子集包括與所述索引n元文法的子集相關(guān)聯(lián)的標(biāo)記文本項(xiàng),并 且其中向每個(gè)標(biāo)記文本項(xiàng)分配的得分是基于所述詞網(wǎng)格統(tǒng)計(jì)模型的;以及呈現(xiàn)具有比第二閾值高的得分的一個(gè)或多個(gè)所述標(biāo)記文本項(xiàng)。
9. 根據(jù)權(quán)利要求8所述的方法,其中,所述索引n元文法集合中 的每個(gè)索引n元文法是唯一的,并且是至少一個(gè)標(biāo)記文本項(xiàng)的序列子 集。
10. 根據(jù)權(quán)利要求8所述的方法,其中,向索引n元文法集合中 的每個(gè)索引n元文法分配得分進(jìn)一步包括將每個(gè)n元文法翻譯成相應(yīng)的音素串;以及基于根據(jù)所述音素網(wǎng)格統(tǒng)計(jì)模型獲得的概率估計(jì)向每個(gè)索引n元文法分配得分。
11. 根據(jù)權(quán)利要求8所述的方法,其中,根據(jù)估計(jì)概率 ^0^2…"^ I z) = p" II a,丄).…p0^ I "…^^—w,丄)確定向每個(gè)索 引n元文法分配的得分,其中pOca.....~|丄)是具有音素串:^2.....&的 索引n元文法在生成音素網(wǎng)格(l)所依據(jù)的話語(yǔ)中出現(xiàn)的估計(jì)概率, 并且根據(jù)包括在所述音素網(wǎng)格統(tǒng)計(jì)模型中的概率估計(jì)I丄),/ 02 I x"丄)"…,/ OA/ I 來(lái)確定…"Xm I丄)。
12. 根據(jù)權(quán)利要求8所述的方法,其中,根據(jù)估計(jì)概率 *2^ I『)=水I『)*2 I x,,『)….;^ I x腫…x脅J)確定向每個(gè) 標(biāo)記文本項(xiàng)分配的得分,其中; (;c,;^.....;cM ^)是具有詞串;c^.....~的標(biāo) 記文本項(xiàng)在生成詞網(wǎng)格(W)所依據(jù)的話語(yǔ)中出現(xiàn)的估計(jì)概率,并且根據(jù)所述詞網(wǎng)格統(tǒng)計(jì)模型的概率估計(jì) <formula>formula see original document page 5</formula>來(lái)確定<formula>formula see original document page 5</formula>
13. —種無(wú)線通信設(shè)備,包括 存儲(chǔ)器;處理器,所述處理器通信地耦合到所述存儲(chǔ)器;以及 語(yǔ)音響應(yīng)搜索引擎,所述語(yǔ)音響應(yīng)搜索引擎通信地耦合到所述存儲(chǔ)器和所述處理器,所述語(yǔ)音響應(yīng)搜索引擎用于建立標(biāo)記文本項(xiàng)集合,其中,每個(gè)標(biāo)記文本項(xiàng)與內(nèi)容文件集合中的一個(gè)內(nèi)容文件唯一地關(guān)聯(lián);從用戶接收至少一個(gè)可聽話語(yǔ); 辨別與所接收到的可聽話語(yǔ)相關(guān)聯(lián)的音素集合; 基于所辨別的音素集合生成音素網(wǎng)格; 基于所述音素網(wǎng)格創(chuàng)建音素網(wǎng)格統(tǒng)計(jì)模型;基于所述音素網(wǎng)格統(tǒng)計(jì)模型向標(biāo)記文本項(xiàng)集合的子集中的每個(gè)標(biāo) 記文本項(xiàng)分配得分;以及呈現(xiàn)具有比閾值高的得分的一個(gè)或多個(gè)所述標(biāo)記文本項(xiàng)。
14. 根據(jù)權(quán)利要求13所述的無(wú)線通信設(shè)備,其中,所述標(biāo)記文本 項(xiàng)集合的子集是所述標(biāo)記文本項(xiàng)的整個(gè)集合。
15. 根據(jù)權(quán)利要求13所述的無(wú)線通信設(shè)備,其中,根據(jù)估計(jì)概率<formula>formula see original document page 5</formula>確定向每個(gè)標(biāo) 記文本項(xiàng)分配的得分,其中; (;ca.....~|丄)是具有音素串^^.....^的標(biāo) 記文本項(xiàng)在生成音素網(wǎng)格(L)所依據(jù)的話語(yǔ)中出現(xiàn)的估計(jì)概率,并且 根據(jù)包括在所述音素網(wǎng)格統(tǒng)計(jì)模型中的概率估計(jì) pOi I丄),/ 021 & ,z),….,1 Xh,.,j^+,—來(lái)確定p(Xx2..…xM 1 。
16. 根據(jù)權(quán)利要求13所述的無(wú)線通信設(shè)備,其中,所述標(biāo)記文本項(xiàng)集合的子集通過以下來(lái)確定根據(jù)所述標(biāo)記文本項(xiàng)集合生成索引n元文法集合;其中每個(gè)索引 n元文法是至少一個(gè)所述標(biāo)記文本項(xiàng)的子集;基于所述音素網(wǎng)格統(tǒng)計(jì)模型向所述索引n元文法集合中的每個(gè)索 引n元文法分配得分;以及將包括具有比第一閾值大的分配得分的索引n元文法的那些標(biāo)記 文本項(xiàng)包括在所述標(biāo)記文本項(xiàng)子集中。
17. 根據(jù)權(quán)利要求16所述的無(wú)線通信設(shè)備,其中,所述索引n元 文法集合中的每個(gè)索引n元文法是唯一的,并且是至少一個(gè)標(biāo)記文本 項(xiàng)的序列子集。
18. 根據(jù)權(quán)利要求16所述的無(wú)線通信設(shè)備,其中,向索引n元文 法集合中的每個(gè)索引n元文法分配得分進(jìn)一步包括-將每個(gè)索引n元文法翻譯成相應(yīng)的音素串;以及 基于根據(jù)所述音素網(wǎng)格統(tǒng)計(jì)模型獲得的概率估計(jì)向每個(gè)索引n元 文法分配得分。
19. 根據(jù)權(quán)利要求18所述的無(wú)線通信設(shè)備,其中,根據(jù)估計(jì)概率 ..... I丄)=p(X I丄); (>21 ^,丄).…; 0;v Ii"J緒,丄)確定向每個(gè)索引n元文法分配的得分,其中p(;ca.....^IZ)是具有音素串;c^..... 的索引 n元文法在生成音素網(wǎng)格(l)所依據(jù)的話語(yǔ)中出現(xiàn)的估計(jì)概率,并且 根據(jù)包括在所述音素網(wǎng)格統(tǒng)計(jì)模型中的概率估計(jì) ; "I丄),/ 02 I I x腫…x脅w,工)來(lái)確定/ 0^2..… I丄)。
20. 根據(jù)權(quán)利要求18所述的無(wú)線通信設(shè)備,其中,根據(jù)估計(jì)概率/ 0一2…"% I丄)=pOi I丄);^21 A,丄).…p(^ I x腫.』脅確定向所述標(biāo) 記文本項(xiàng)子集中的每個(gè)標(biāo)記文本項(xiàng)分配的得分,其中p(x,^.....& |丄)是具有音素串;c^.....^的標(biāo)記文本項(xiàng)在生成音素網(wǎng)格(l)所依據(jù)的話語(yǔ)中出現(xiàn)的估計(jì)概率,并且根據(jù)包括在所述音素網(wǎng)格統(tǒng)計(jì)模型中的概率估計(jì)p(X |丄),/ 02 Ix,Z),…"pOm IXn,…xm小w,丄)來(lái)確定p(Xx2..…xM i丄)。
全文摘要
所公開的是一種用于使用語(yǔ)音識(shí)別來(lái)選擇內(nèi)容文件的方法和無(wú)線設(shè)備。該方法包括建立標(biāo)記文本項(xiàng)集合,其中每個(gè)標(biāo)記文本項(xiàng)與內(nèi)容文件集合中的一個(gè)內(nèi)容文件唯一地關(guān)聯(lián)。從用戶接收(804)至少一個(gè)可聽話語(yǔ)(226)。基于可聽話語(yǔ)(226)生成(808)音素網(wǎng)格(302)?;谝羲鼐W(wǎng)格(302)生成(810)音素網(wǎng)格統(tǒng)計(jì)模型?;谝羲鼐W(wǎng)格統(tǒng)計(jì)模型中的概率估計(jì)向標(biāo)記文本項(xiàng)分配得分(1008)。呈現(xiàn)高評(píng)分標(biāo)記文本項(xiàng)列表(1014),以便可以進(jìn)行內(nèi)容文件的選擇。在一些實(shí)施例中也可以使用詞網(wǎng)格(402)和詞網(wǎng)格統(tǒng)計(jì)模型。
文檔編號(hào)G10L15/00GK101558442SQ200780045034
公開日2009年10月14日 申請(qǐng)日期2007年10月17日 優(yōu)先權(quán)日2006年12月5日
發(fā)明者程燕鳴, 馬長(zhǎng)學(xué) 申請(qǐng)人:摩托羅拉公司