專利名稱:語音檢索裝置和語音檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音檢索,更具體地涉及利用相關(guān)文檔的語音檢索。
背景技術(shù):
近來,對于語音檢索系統(tǒng)的研究開發(fā)日益為人們所重視。用戶想通過文字來檢索到感興趣的語音文件,但是文字格式和語音格式是完全不 同的兩種格式,所以無法直接進(jìn)行檢索?,F(xiàn)有的語音檢索系統(tǒng)大都是把文字和檢索目標(biāo)即語音文件轉(zhuǎn)換成相同的某種格 式,例如把檢索用文字轉(zhuǎn)換成語音格式,或者把目標(biāo)語音轉(zhuǎn)換成文本格式,又或者把兩種不 同格式轉(zhuǎn)換成相同的第三種格式。但是由于語音的變化性,使得轉(zhuǎn)換造成的信息流失非常嚴(yán)重。更具體地,現(xiàn)在常用的檢索方法有如下幾種第一種方法即最常用的方法是通過自動語音識別把語音轉(zhuǎn)換成文本,然后使用文 本檢索系統(tǒng)來進(jìn)行檢索。這也是谷歌和SpeechBot的語音檢索系統(tǒng)所使用的方法。這種方 法有助于通過閱讀文本了解語音文件的內(nèi)容。但是也存在一些不足首先,識別率低,通過 語音識別得到的文本里面錯誤很多,這使得檢索結(jié)果正確率低。其次,這樣做丟失了很多語 音文件本身的信息,例如它的上下文信息,如講話人的情緒、語速、節(jié)奏等。再次,對于某種 特殊發(fā)音,如中國式英語,如果沒有大量的訓(xùn)練數(shù)據(jù)來訓(xùn)練出適當(dāng)?shù)穆晫W(xué)模型,這種方法根 本無法正常工作。第二種方法是把文本和語音翻譯成同一種第三方格式,例如音素碼、音節(jié)、字 等,然后用翻譯后的文本去檢索翻譯后的語音。這個方法的問題在于首先,翻譯的準(zhǔn) 確率不高。其次,這樣做經(jīng)常引起混淆,例如,對于都轉(zhuǎn)換成音素碼的情形,如要檢索 “ information",則可能會得到結(jié)果attention, detection等,因為它們具有共同發(fā)音 “-tion” ;而且該方法也有著與上一個方法的同樣不足。第三種方法只使用了語音的相關(guān)文本來進(jìn)行一般的信息檢索。它常用于搜索音 樂。因為語音的相關(guān)文本通常都比語音本身包含更少的信息,而且語音本身的內(nèi)容也很難 在這種方法中使用,所以這種方法所利用的信息量很少。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中的上述問題,做出了本發(fā)明。根據(jù)本發(fā)明的一個方面,提供了一種語音檢索裝置,用于通過用于查詢的文字檢 索語音文件,包括相關(guān)文檔檢索部件,用于利用所述用于檢索的文字從相關(guān)文本數(shù)據(jù)庫 中檢索出相關(guān)文檔,其中該相關(guān)文本數(shù)據(jù)庫存儲與語音文件數(shù)據(jù)庫中的語音文件相關(guān)的文 檔;對應(yīng)語音文件獲得部件,用于從語音文件數(shù)據(jù)庫中找出與檢索出的相關(guān)文檔對應(yīng)的語 音文件;語音到語音檢索部件,用于利用所獲得的語音文件對語音數(shù)據(jù)庫進(jìn)行檢索。根據(jù)本發(fā)明的另一方面,提供了一種語音檢索方法,用于通過用于檢索的文字檢索語音文件數(shù)據(jù)庫中的語音文件,包括利用所述用于檢索的文字從相關(guān)文本數(shù)據(jù)庫中檢 索出相關(guān)文檔,其中該相關(guān)文本數(shù)據(jù)庫存儲與語音文件數(shù)據(jù)庫中的語音文件相關(guān)的文檔; 從語音文件數(shù)據(jù)庫中找出與檢索出的相關(guān)文檔對應(yīng)的語音文件;利用所獲得的語音文件對 語音數(shù)據(jù)庫進(jìn)行檢索。利用本發(fā)明各個實施例所描述的語音檢索裝置和語音檢索方法,可以不用翻譯而 把文本形式的檢索條件轉(zhuǎn)換成語音格式的檢索條件,這樣就避免了翻譯所帶來的信息丟失 和額外損失。由于可以不進(jìn)行任何語音識別,所以也避免了低識別率所帶來的影響。而且, 因為我們最后使用語音去檢索語音,從而方法中保留了盡可能多的語音特征來加以利用。 并且充分利用了以文本檢索文本和以語音檢索語音的高準(zhǔn)確率的優(yōu)點。而且,利用語音檢 索語音還可以利用任何已知的語音檢索語音系統(tǒng)所具有的高召回率的優(yōu)點。
圖1示出了根據(jù)本發(fā)明一個實施例的語音檢索裝置的功能配置;圖2示出了根據(jù)本發(fā)明一個實施例的上述語音檢索裝置中的語音到語音搜索部 件的功能配置;圖3示出了根據(jù)本發(fā)明一個實施例的語音檢索系統(tǒng)的一個示意性工作過程;以及圖4示出了根據(jù)本發(fā)明一個實施例的語音檢索方法的流程圖。
具體實施例方式以下,將參照附圖詳細(xì)描述本發(fā)明的優(yōu)選實施例。注意,在本說明書和附圖中,使 用相同的標(biāo)號表示具有基本相同功能與結(jié)構(gòu)的結(jié)構(gòu)元素,并且省略了對這些結(jié)構(gòu)元素的重 復(fù)解釋。將按以下所示的次序進(jìn)行描述[1]語音檢索裝置的功能配置[2]語音檢索系統(tǒng)的示意性工作流[3]語音檢索方法的流程[1]語音檢索裝置的功能配置圖1示出了根據(jù)本發(fā)明一個示例性實施例的語音檢索裝置100的功能配置。如圖1所示,該示例性的語音檢索裝置100可以包括相關(guān)文檔檢索部件110、對應(yīng) 語音文件獲得部件120以及語音到語音檢索部件130。該語音檢索裝置100還可以包括相 關(guān)文檔數(shù)據(jù)庫140和語音數(shù)據(jù)庫150?;蛘咴撜Z音檢索裝置100可以與相關(guān)文檔數(shù)據(jù)庫140 和語音文檔數(shù)據(jù)庫150分開配置,該語音檢索裝置100通過例如有線網(wǎng)絡(luò)、無線網(wǎng)絡(luò)等連接 到相關(guān)文檔數(shù)據(jù)庫140和語音文檔數(shù)據(jù)庫150。在語音文檔數(shù)據(jù)庫150中存儲有如.wav,. mp3,. rm等各種格式的語音文件(下文 視便利可能將所存儲的語音文件稱為目標(biāo)語音或目標(biāo)語音文件)。每個語音文件可以包含 有一個或多個相關(guān)文本信息,這里的相關(guān)文本信息可以是任何與語音有關(guān)的文本數(shù)據(jù),可 以是語音文件的標(biāo)題,相應(yīng)演講文稿,相關(guān)語音內(nèi)容等,但不局限于上述列舉的這些。這樣 的相關(guān)文本信息存儲在上述相關(guān)文本數(shù)據(jù)庫140中。目標(biāo)語音與其相關(guān)文本信息的對應(yīng)關(guān) 系需要保存,以便可以由相關(guān)文本信息參考對應(yīng)于的目標(biāo)語音,或者由目標(biāo)語音參考對應(yīng)的相關(guān)文本信息。上述對應(yīng)關(guān)系,可以為例如指針或者索引方式,并且可以存儲在語音文檔 數(shù)據(jù)庫150、相關(guān)文本數(shù)據(jù)庫140、第三方數(shù)據(jù)庫等中的任一個或者它們的組合上。相關(guān)文檔檢索部件110用于利用用于檢索的文字從相關(guān)文本數(shù)據(jù)庫140中檢索出 相關(guān)文檔。所述用于檢索的文字可以是用戶通過各種方式輸入的,就如同我們常見的利用 Google, Baidu等搜索引擎搜索文檔中那樣,也可以是預(yù)定的,或者是從一些給出的選擇中 選擇的,等等。用于檢索的文字可以是一個或多個關(guān)鍵字,一個或多個句子,甚至一個或多 個文檔??梢岳萌魏维F(xiàn)有的文本檢索方法來檢索出相關(guān)文檔。相關(guān)文檔檢索部件110進(jìn) 行檢索的結(jié)果可以是從相關(guān)文本數(shù)據(jù)庫中檢測出的就與用于檢索的文字之間的相關(guān)度而 言排于前N名的文檔?;蛘?,檢測結(jié)果可以是與用于檢索的文字之間的相關(guān)度大于預(yù)定閾 值的文檔。其中用于檢索的文字和目標(biāo)文本之間的相關(guān)度可以利用任何現(xiàn)有相關(guān)度方法進(jìn) 行計算,例如,可以利用BM25、向量模型等方法。對應(yīng)語音文件獲得部件120用于利用語音文件和相關(guān)文檔之間的對應(yīng)關(guān)系從語 音文件數(shù)據(jù)庫150中找出與檢索出的相關(guān)文檔對應(yīng)的語音文件。需要注意的是,因為一個 語音文件可以存在多個相關(guān)文檔,因此可能存在檢索到的多個相關(guān)文檔均指向一個語音文 件的情況下,在此情況下,可以對于多次被指向的語音文件賦予較高的權(quán)重(或分?jǐn)?shù)),如 后面將詳細(xì)說明的那樣。語音到語音檢索部件130用于利用所獲得的語音文件對語音數(shù)據(jù)庫進(jìn)行檢索。這 里,既可以利用各個語音文件整體來計算與語音數(shù)據(jù)庫中的各個語音文件之間的相關(guān)性來 進(jìn)行檢索,也可以如后面詳細(xì)說明的那樣,對每個語音文件進(jìn)行分段得到語音片斷集合,然 后利用語音片斷集合中的語音片斷來對語音數(shù)據(jù)庫進(jìn)行檢索。任何語音片斷搜索語音文件 的方法都可以用于本發(fā)明,例如,美國專利US7542996B2中介紹的方法。圖2示出了根據(jù)本發(fā)明一個優(yōu)選實施例的圖1所示的語音到語音搜索部件130的 功能框圖。如圖2所示,例示的語音到語音搜索部件130可以包括語音片斷語音片斷分割部 件210,用于把所獲得的語音文件中的每個語音文件分成語音片斷,從而得到語音片斷的集 合;噪音去除部件220,使用用于檢索的文字從該語音片斷集合中去除噪音的部件,所述噪 音是指與用于檢索的文字不相關(guān)的語音片斷;語音片斷到語音檢索部件230,用于利用去 除了噪音的語音片斷集合對語音數(shù)據(jù)庫進(jìn)行檢索。語音片斷語音片斷分割部件210可以利用任何現(xiàn)有分段方法對語音文件進(jìn)行分 段。例如,可以采用停頓切分法,即一般人在說話時,在句子和句子之間或短語和短語之間 一般存在停頓,可以通過識別中間的停頓來對語音進(jìn)行分段。再例如,還可以采用說話人切 分法,如對于存在多人的訪談類節(jié)目,不同人的說話具有不同的特征,可以利用說話人所具 有的各自不同特征來對語音文件進(jìn)行分段。另外,還可以把停頓切分法和說話人切分法組 合使用,例如先進(jìn)行說話人切分,在對由說話人切分法得到的結(jié)果利用停頓切分法進(jìn)行分 段。而且,如果認(rèn)為分段進(jìn)行的過細(xì),還可以對切分后的片斷進(jìn)行合并。上面所述的語音分 段方法僅僅用于說明目的,任何可能的語音分段方法都可以用于本發(fā)明。噪音去除部件220使用用于檢索的文字從該語音片斷集合中去除噪音,所述噪音 是指與用于檢索的文字不相關(guān)的語音片斷,例如那些與用于檢索的文字之間的相關(guān)度小于 預(yù)定閾值的語音片斷。關(guān)于用于檢索的文字與語音片斷之間的相關(guān)性計算,可以利用現(xiàn)有的語音檢索方法中使用的方法,例如,可以利用任何自動語音識別引擎將語音片斷集合中 的所有語音片斷翻譯成文本,然后計算翻譯后的文本與用于檢索的文字之間的相關(guān)性。當(dāng) 然,作為替代,也可以將用于檢索的文字翻譯成語音,然后計算翻譯后的語音和上述語音片 斷集合中的各個語音片斷之間的相關(guān)性?;蛘?,作為替代,可以將用于檢索的文字和語音片 斷集合中的所有語音片斷都翻譯成第三方格式,然后計算兩者之間的相關(guān)性。作為第三方 格式的示例,存在音素碼、音節(jié)、子字(sub-word)或者字(word)等等。在計算得到用于檢 索的文字和各語音片斷之間的相關(guān)性后,可以將該相關(guān)性與預(yù)定閾值相比較,如果與某個 語音片斷關(guān)聯(lián)的相關(guān)性大于預(yù)定閾值,則保留該語音片斷,否則將該語音片斷判定為噪音, 從而予以去除。當(dāng)然,作為替代,也可以以語音片斷與用于檢索的文字之間的相關(guān)度作為標(biāo) 準(zhǔn)來對各個語音片斷進(jìn)行排序,而選取預(yù)定數(shù)目的排名靠前的語音片斷作為最后用于查詢 的語音片斷。[2]語音檢索系統(tǒng)的示意性工作流為了更充分地說明本發(fā)明,下面將參考圖3描述根據(jù)本發(fā)明一個優(yōu)選實施例的本 發(fā)明語音檢索系統(tǒng)的示例性工作過程。圖3以更加直觀的方式示出了根據(jù)本發(fā)明一個優(yōu)選 實施例的語音檢索系統(tǒng)的示意性工作過程。如圖3箭頭順序指示的流程,首先,利用諸如用戶輸入的用于查詢的文本來搜索 相關(guān)文本,由此可以利用文本搜索文本的技術(shù)的高準(zhǔn)確率的優(yōu)點。由此獲得了排序的文本 結(jié)果,從排序的文本結(jié)果中,取(相關(guān)度)排名前N個的文本結(jié)果,然后獲得對應(yīng)的語音,在 獲得對應(yīng)語音后,可以利用所輸入的文本查詢對所獲得的對應(yīng)語音進(jìn)行限縮,例如去除語 音中的不相關(guān)語音片斷,由此可以提高后續(xù)語音到語音的搜索效率,消除噪音影響,提高搜 索準(zhǔn)確率。經(jīng)過限制后,得到了用于查詢的語音。接著,可以利用用于查詢的語音直接搜索 語音數(shù)據(jù)庫,從而得到搜索到的語音結(jié)果來加以輸出。圖3中的虛線以及“X”表示利用用于查詢的文本不能直接搜索語音數(shù)據(jù)庫,正如 背景技術(shù)部分所陳述的那樣。而利用用于查詢的文本搜索相關(guān)文本數(shù)據(jù)庫以及利用語音搜 索語音數(shù)據(jù)庫都已經(jīng)具有很多公知的技術(shù),而且具有很高的準(zhǔn)確率。作為對比,本發(fā)明實施 例首先以查詢文本檢索相關(guān)文本數(shù)據(jù)庫獲得相當(dāng)文檔,利用所獲得的相關(guān)文檔直接獲得對 應(yīng)的語音文件,利用所獲得的語音文件對語音數(shù)據(jù)庫進(jìn)行檢索。由此,避開了因為文本和語 音之間的互譯導(dǎo)致的信息丟失、識別率低的不利影響。需要特別說明的是,圖3僅僅是為了提供對本發(fā)明更好的理解而給出的示意性工 作流,而并非為了限制本發(fā)明。相反,圖3中所示的很多具體部分是可以省略或者以別的方 式來替代的,例如,圖3中虛框310框起來的部分即語音去噪的部分是可以省略的。以及圖 3中虛框320框起來的部分是可以以其他方式替代的,例如,無需進(jìn)行排序,而僅僅取與用 于檢索的文字之間的相關(guān)度大于預(yù)定閾值如50%的文檔作為相關(guān)文檔。[3]語音檢索方法的流程下面將首先參考圖4說明根據(jù)本發(fā)明一個實施例的總體語音檢索方法。然后將更 具體說明根據(jù)本發(fā)明一個優(yōu)選實施例的包括語音去噪的語音檢索方法。如圖4所示,在步驟S410,利用所述用于檢索的文字從相關(guān)文本數(shù)據(jù)庫中檢索出 相關(guān)文檔,其中該相關(guān)文本數(shù)據(jù)庫存儲與語音文件數(shù)據(jù)庫中的語音文件相關(guān)的文檔;在步 驟S420,從語音文件數(shù)據(jù)庫中找出與檢索出的相關(guān)文檔對應(yīng)的語音文件;在步驟S430,利
6用所獲得的語音文件對語音數(shù)據(jù)庫進(jìn)行檢索。根據(jù)本發(fā)明一個優(yōu)選實施例,步驟S430,利用所獲得的語音文件對語音數(shù)據(jù)庫進(jìn) 行檢索包括把所獲得的語音文件中的每個語音文件分成語音片斷,從而得到語音片斷的 集合;使用用于檢索的文字從該語音片斷集合中去除噪音,所述噪音是指與用于檢索的文 字不相關(guān)的語音片斷;利用去除了噪音的語音片斷集合對語音數(shù)據(jù)庫進(jìn)行檢索。下面,更具體說明根據(jù)本發(fā)明一個優(yōu)選實施例的包括語音去噪的語音檢索方法。作為示例,下面以在步驟S410中對搜索目標(biāo)文本進(jìn)行排序并進(jìn)行打分,以及在步 驟S420中對對應(yīng)的語音文件進(jìn)行打分,并且在優(yōu)選的S430中對語音文件中的語音片斷進(jìn) 行打分并相應(yīng)地進(jìn)行去噪來具體說明一個工作示例。在上述步驟S410中,找到經(jīng)過排序的相關(guān)文檔??梢允褂萌魏维F(xiàn)存的文本檢索方 法來得到經(jīng)過排序的相關(guān)文本文檔結(jié)果。該文本檢索方法可以接受文本檢索,搜索目標(biāo)文 本得到按相關(guān)性排序的前η個文檔。計算檢索文本與結(jié)果文本之間的相關(guān)度可以由該文本 檢索方法提供,作為示例我們選擇ΒΜ25方法來計算相關(guān)度。通過本步驟可以得到按得分排 序的文本列表R R = [ (Textidl, scorel),(Textid2, score2)…(Textidn, socren)]其中Textidi是目標(biāo)文本的唯一標(biāo)識,scorei是目標(biāo)文本的計算后得分。在上述步驟420中,找到該前η個的相關(guān)文檔的相關(guān)語音文件,并對相關(guān)語音文件 進(jìn)行打分。注意,因為可能存在多個相關(guān)文檔對應(yīng)于一個相關(guān)語音文件的情況,所以可能最 后得到的相關(guān)語音文件的數(shù)目小于η,這里假設(shè)相關(guān)語音文件的數(shù)目為m,m<=n。可以通 過如下子步驟對相關(guān)語音文件賦予分?jǐn)?shù)1)給所有的相關(guān)語音文件Speechidj賦以初始分?jǐn)?shù)=SpeechScorej = 0.02)對于上述集合R里的每個文本Textidi 找到它所關(guān)聯(lián)的唯一語音文件 Speechidj,給該語音文件Speechi由的分?jǐn)?shù)Speechkorej加上由此文本賦予的分?jǐn)?shù)ν 艮口,ν = scorei*relationi jSpeechScorej = SpeechScorej+V其中,relation! j是個參數(shù),其表征文本Textidi與對應(yīng)語音文件Speechidj之 間關(guān)系的緊密程度,兩者之間關(guān)系越緊密,此參數(shù)值越高,此參數(shù)值可以按照經(jīng)驗確定,或 者經(jīng)過實驗自適應(yīng)學(xué)習(xí)獲得。3)根據(jù)各個語音文件的分?jǐn)?shù)進(jìn)行排序Rs = [ (Speechidl, speechscorel),(Speechid2, speechscore2)…(Speechidm, speechscorem)Speechidj是語音文件的唯一識別標(biāo)識,Speechscorej是該語音文件的分?jǐn)?shù)在上述步驟S430中,將進(jìn)行語音片斷集除噪的操作,具體地包括對通過步驟 S420得到的語音集Rs中的每個語音文件進(jìn)行分段,分成語音片斷,從而獲得語音片斷集 合。分段方法可以是任何已知方法,例如上文介紹的停頓切分法、說話人切分法等。作為示 例,可以采用停頓切分法,即如果停頓的時間超過預(yù)定閾值,則在此處對該語音文件進(jìn)行分 段。為每個語音片斷SSIdk賦予一個初始分?jǐn)?shù)SSkorek,其值為該語音片斷所屬的語音文 件的分?jǐn)?shù)。由此,我們得到一個列表SSL = [(SSIdl,SSScorel),(SSId2, SSScore2)…· (SSIdx, SSScorex)]
其中SSIdk為語音片斷的唯一標(biāo)識,SSScorek為該語音片斷的初始分?jǐn)?shù),用于表 征該語音片斷與用于搜索的文字之間的相關(guān)度。作為確定相關(guān)性得分的示例性方法,用自動語音識別引擎把得到的語音片斷 SSIdk翻譯成文本,可以用任何文本檢索方法計算得到用于檢索的文本與翻譯后的語音片 斷SSIdk之間的此階段相關(guān)性得分TRkorek ASRS = [ (SSIdl, TRScorel),(SSId2, TRScore2)…·(SSIdx,TRScorex)]TRScorek是該文本檢索方法賦予給語音片斷SSIdk的分?jǐn)?shù)。然后我們可以用下面這個公式計算得到每個語音片斷的最終分?jǐn)?shù)SSSk SSSk = SSScorek*TRScorek最后,我們設(shè)定一個閾值tr,如果某個語音片斷的分?jǐn)?shù)大于這個閾值,則此語音片 斷保留,否則將該語音片斷作為噪音從語音片斷集合中去除。這里的閾值可以根據(jù)經(jīng)驗設(shè) 定,也可以通過學(xué)習(xí)訓(xùn)練而獲得。在獲得了語音片斷集合之后,我們可以用語音片斷中的所有語音片斷作為檢索條 件,使用任何現(xiàn)有的語音檢索語音的方法對語音數(shù)據(jù)庫進(jìn)行搜索。上述更具體地包括語音去噪的語音檢索方法既利用了在進(jìn)行相關(guān)文檔檢索時的 用于檢索的文字和目標(biāo)文檔之間的相關(guān)度,也考慮相關(guān)文檔和對應(yīng)語音之間的關(guān)系緊密性 因素,還進(jìn)一步考慮各個語音片斷本身與用于檢索的文字之間的相關(guān)度。由此,最后得到的 用于查詢的語音片斷將可以更好地體現(xiàn)用戶的檢索初衷。而且,甚至在利用所得到的語音 片斷對語音數(shù)據(jù)庫進(jìn)行檢索時,也可以在評價最終的從語音數(shù)據(jù)庫檢索到的作為結(jié)果的各 個語音文件的相關(guān)性時考慮各個語音片斷的分?jǐn)?shù)。利用本發(fā)明各個實施例所描述的語音檢索裝置和語音檢索方法,可以不用翻譯而 把文本形式的檢索條件轉(zhuǎn)換成語音格式的檢索條件,這樣就避免了翻譯所帶來的信息丟失 和額外損失。由于可以不進(jìn)行任何語音識別,所以也避免了低識別率所帶來的影響。而且, 因為我們最后使用語音去檢索語音,從而方法中保留了盡可能多的語音特征來加以利用。 并且充分利用了以文本檢索文本和以語音檢索語音的高準(zhǔn)確率的優(yōu)點。而且,利用語音檢 索語音還可以利用任何已知的語音檢索語音系統(tǒng)所具有的高召回率的優(yōu)點。需要解釋的是,雖然在包括語音去噪的上述示例性語音檢索方法中,在評估語音 片斷和用于檢索的文字之間的相關(guān)性時,可能涉及到把語音片斷轉(zhuǎn)換成文字或者將文字轉(zhuǎn) 換成語音的操作,但是因為該轉(zhuǎn)換是很小規(guī)模的,因此可以利用現(xiàn)有的技術(shù)而做得充分準(zhǔn) 確,這并不會給本發(fā)明帶來很大的不利影響。另外需要說明的是,本發(fā)明的實施例可以通過硬件、軟件、固件或它們之間結(jié)合的 方式來實現(xiàn),包括可以把本發(fā)明實施例體現(xiàn)為計算機介質(zhì)或計算機程序,其實現(xiàn)方式不對 本發(fā)明的技術(shù)范圍構(gòu)成限制。本發(fā)明實施例中的各個元件(單元)相互之間的連接關(guān)系不對本發(fā)明的技術(shù)范圍 構(gòu)成限制,其中的一個或多個元件可以包括或連接于其它任意的元件。雖然上面已經(jīng)結(jié)合附圖示出并描述了本發(fā)明的一些實施例,但是本領(lǐng)域的技術(shù)人 員應(yīng)當(dāng)理解,在不偏離本發(fā)明的原則和精神的情況下,可以對這些實施例做出變化和改變, 所做的變化和改變?nèi)匀宦湓诒景l(fā)明及其等價物的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種語音檢索裝置,用于通過用于查詢的文字檢索語音文件,包括相關(guān)文檔檢索部件,用于利用所述用于檢索的文字從相關(guān)文本數(shù)據(jù)庫中檢索出相關(guān)文 檔,其中該相關(guān)文本數(shù)據(jù)庫存儲與語音文件數(shù)據(jù)庫中的語音文件相關(guān)的文檔;對應(yīng)語音文件獲得部件,用于從語音文件數(shù)據(jù)庫中找出與檢索出的相關(guān)文檔對應(yīng)的語 音文件;語音到語音檢索部件,用于利用所獲得的語音文件對語音數(shù)據(jù)庫進(jìn)行檢索。
2.如權(quán)利要求1所述的語音檢索裝置,其中,所述相關(guān)文檔是語音的標(biāo)題,語音所帶的 演示文檔,或者語音的文字內(nèi)容中的一種或幾種。
3.如權(quán)利要求1所述的語音檢索裝置,所述用于檢索的文字是一個或多個關(guān)鍵字、一 個或多個句子或一篇或幾篇文檔。
4.如權(quán)利要求1所述的語音檢索裝置,其中所述語音到語音檢索部件包括語音片斷分割部件,用于把所獲得的語音文件中的每個語音文件分成語音片斷,從而 得到語音片斷的集合;噪音去除部件,使用用于檢索的文字從該語音片斷集合中去除噪音,所述噪音是指與 用于檢索的文字不相關(guān)的語音片斷;以及語音片斷到語音檢索部件,用于利用去除了噪音的語音片斷集合對語音數(shù)據(jù)庫進(jìn)行檢索。
5.如權(quán)利要求1所述的語音檢索裝置,所述相關(guān)文檔檢索部件從相關(guān)文本數(shù)據(jù)庫中檢 測出就與用于檢索的文字之間的相關(guān)度而言排于前N名的文檔或者與用于檢索的文字之 間的相關(guān)度大于預(yù)定閾值的文檔作為所述相關(guān)文檔。
6.一種語音檢索方法,用于通過用于檢索的文字檢索語音文件數(shù)據(jù)庫中的語音文件, 包括利用所述用于檢索的文字從相關(guān)文本數(shù)據(jù)庫中檢索出相關(guān)文檔,其中該相關(guān)文本數(shù)據(jù) 庫存儲與語音文件數(shù)據(jù)庫中的語音文件相關(guān)的文檔;從語音文件數(shù)據(jù)庫中找出與檢索出的相關(guān)文檔對應(yīng)的語音文件; 利用所獲得的語音文件對語音數(shù)據(jù)庫進(jìn)行檢索。
7.如權(quán)利要求6所述的語音檢索方法,其中所述相關(guān)文檔是語音的標(biāo)題,語音所帶的 演示文檔,或者語音的文字內(nèi)容中的一種或幾種。
8.如權(quán)利要求6所述的語音檢索方法,所述用于檢索的文字是一個或多個關(guān)鍵字、一 個或多個句子或一篇或幾篇文檔。
9.如權(quán)利要求6所述的語音檢索方法,其中利用所獲得的語音文件對語音數(shù)據(jù)庫進(jìn)行 檢索包括把所獲得的語音文件中的每個語音文件分成語音片斷,從而得到語音片斷的集合; 使用用于檢索的文字從該語音片斷集合中去除噪音,所述噪音是指與用于檢索的文字 不相關(guān)的語音片斷;以及利用去除了噪音的語音片斷集合對語音數(shù)據(jù)庫進(jìn)行檢索。
10.如權(quán)利要求6所述的語音檢索方法,從相關(guān)文本數(shù)據(jù)庫中檢測出排序前N名的文檔 或者與用于檢索的文字之間的相關(guān)度大于預(yù)定閾值的文檔作為所述相關(guān)文檔。
全文摘要
提供了語音檢索裝置和方法,用于通過用于查詢的文字檢索語音文件。語音檢索裝置包括相關(guān)文檔檢索部件,用于利用所述用于檢索的文字從相關(guān)文本數(shù)據(jù)庫中檢索出相關(guān)文檔,其中該相關(guān)文本數(shù)據(jù)庫存儲與語音文件數(shù)據(jù)庫中的語音文件相關(guān)的文檔;對應(yīng)語音文件獲得部件,用于從語音文件數(shù)據(jù)庫中找出與檢索出的相關(guān)文檔對應(yīng)的語音文件;語音到語音檢索部件,用于利用所獲得的語音文件對語音數(shù)據(jù)庫進(jìn)行檢索。利用本發(fā)明的語音檢索裝置和方法,可以不用翻譯而把文本形式的檢索條件轉(zhuǎn)換成語音格式的檢索條件,避免了翻譯所帶來的信息丟失和額外損失。
文檔編號G06F17/30GK102081634SQ20091024984
公開日2011年6月1日 申請日期2009年11月27日 優(yōu)先權(quán)日2009年11月27日
發(fā)明者史達(dá)飛, 尹悅燕, 趙利軍, 鄭繼川, 魯耀杰 申請人:株式會社理光