亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數(shù)據(jù)庫注釋與檢索的制作方法

文檔序號:2823583閱讀:365來源:國知局
專利名稱:數(shù)據(jù)庫注釋與檢索的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)庫中存儲的數(shù)據(jù)文件的注釋,以便于隨后進行的檢索。本發(fā)明還涉及用于生成向該數(shù)據(jù)文件添加的注釋數(shù)據(jù)的系統(tǒng),以及在數(shù)據(jù)庫中搜索注釋數(shù)據(jù)的系統(tǒng),以便響應(yīng)用戶的輸入查詢檢索所需數(shù)據(jù)文件。本發(fā)明還涉及用于將節(jié)點和鏈表的無序列表轉(zhuǎn)換為節(jié)點和鏈表的分塊列表的系統(tǒng)。
信息數(shù)據(jù)庫是眾所周知的,其問題是如何快速、有效地從數(shù)據(jù)庫中定位并檢索所需的信息。現(xiàn)有數(shù)據(jù)庫搜索工具允許用戶使用打字關(guān)鍵字來搜索數(shù)據(jù)庫。雖然上述工具是快速有效的,但此類搜索并不適合不同類型的數(shù)據(jù)庫,如視頻或音頻數(shù)據(jù)庫。
根據(jù)一個方面,本發(fā)明目的在于提供一種用于給數(shù)據(jù)庫中的數(shù)據(jù)文件做注釋的數(shù)據(jù)結(jié)構(gòu),從而能夠響應(yīng)用戶的輸入查詢執(zhí)行快速有效的搜索。
根據(jù)另一方面,本發(fā)明提供定義音素和字格的數(shù)據(jù),作為給數(shù)據(jù)庫中存儲的數(shù)據(jù)文件做注釋的注釋數(shù)據(jù)。該數(shù)據(jù)最好定義眾多節(jié)點以及連接此類節(jié)點的鏈表,該數(shù)據(jù)把眾多音素和相應(yīng)的眾多鏈表聯(lián)系起來,該數(shù)據(jù)把至少一個單詞和至少一個所述鏈表聯(lián)系起來,該數(shù)據(jù)定義上述節(jié)點的數(shù)據(jù)塊排列,從而鏈表僅僅延伸到指定的最大數(shù)目的數(shù)據(jù)塊。另外,上述鏈表最好僅僅延伸到后續(xù)數(shù)據(jù)塊。
根據(jù)另一方面,本發(fā)明提供一種用于搜索數(shù)據(jù)庫的裝置,該數(shù)據(jù)庫采用上述注釋數(shù)據(jù)給其內(nèi)存儲的數(shù)據(jù)文件做注釋。最好將該裝置排列為響應(yīng)用戶的查詢或輸入,生成音素數(shù)據(jù),然后使用生成的音素數(shù)據(jù),搜索該數(shù)據(jù)庫。另外,最好根據(jù)用戶的輸入或查詢生成字?jǐn)?shù)據(jù)。
根據(jù)另一方面,本發(fā)明提供用于生成與接收的音素和字?jǐn)?shù)據(jù)相對應(yīng)的音素和字格的裝置,該裝置包括用于定義眾多鏈表和鏈表之間的眾多節(jié)點的裝置,用于把鏈表和音素或單詞聯(lián)系起來的裝置,以及用于按照時間排序的數(shù)據(jù)塊順序排列此類節(jié)點的裝置,其中鏈表僅僅延伸到該序列后面的指定的最大數(shù)目的數(shù)據(jù)塊中。對鏈表而言,所允許的最大延伸最好為延伸到后續(xù)數(shù)據(jù)塊。另外,最好將該裝置排列為在構(gòu)造網(wǎng)格時增量添加節(jié)點或鏈表,并且將現(xiàn)有節(jié)點塊劃分為至少兩個節(jié)點塊。
根據(jù)另一方面,本發(fā)明提供一種用于向上述類型的音素和字格添加音素或單詞的裝置,并將該裝置排列為根據(jù)所允許的從一個數(shù)據(jù)塊延伸到另一個數(shù)據(jù)塊的鏈表的程度,分析需要修改的定義當(dāng)前音素和字格的數(shù)據(jù)。上述分析最好依賴于標(biāo)識前一數(shù)據(jù)塊中發(fā)起的任意鏈表延伸到的每個數(shù)據(jù)塊中的最新節(jié)點的位置點在網(wǎng)格內(nèi)的位置,以及標(biāo)識每個數(shù)據(jù)塊中延伸到后繼數(shù)據(jù)塊的鏈表之最早節(jié)點的位置點在網(wǎng)格內(nèi)的位置。
根據(jù)另一方面,本發(fā)明提供一種用于向上述類型的音素和字格添加音素或單詞的方法,該方法包括根據(jù)所允許的從一個數(shù)據(jù)塊延伸到另一個數(shù)據(jù)塊的鏈表的程度,分析需要修改的定義當(dāng)前音素和字格的數(shù)據(jù)。上述分析最好依賴于標(biāo)識前一數(shù)據(jù)塊中發(fā)起的任意鏈表延伸到的每個數(shù)據(jù)塊中的最新節(jié)點的相應(yīng)位置點在網(wǎng)格內(nèi)的位置。
根據(jù)另一方面,提供用于將節(jié)點和鏈表的無序列表轉(zhuǎn)換為節(jié)點和鏈表之分塊列表的方法和裝置。通過填充和分割處理形成數(shù)據(jù)塊將后繼節(jié)點插入到數(shù)據(jù)塊中,直至數(shù)據(jù)塊變滿,然后開始一個新數(shù)據(jù)塊。如果新節(jié)點使得已經(jīng)滿的數(shù)據(jù)塊溢出,則將該數(shù)據(jù)塊分割為兩個或多個數(shù)據(jù)塊。利用鏈表能夠通向的數(shù)據(jù)塊約束加快數(shù)據(jù)塊分割處理,并確定留在老數(shù)據(jù)塊中的節(jié)點和進入新數(shù)據(jù)塊中的節(jié)點。
以下參照


本發(fā)明的典型實施方式,其中附圖為圖1為計算機的示意圖,對該計算機進行編程以實現(xiàn)本發(fā)明的實施方式;
圖2為一個框圖,表示能夠生成用于數(shù)據(jù)文件之附件的音素和單詞注釋數(shù)據(jù)的音素和單詞注釋單元;圖3為一個框圖,表示音素和單詞注釋器根據(jù)輸入的視頻數(shù)據(jù)文件生成的注釋數(shù)據(jù);圖4a為音素網(wǎng)格的示意圖,用于輸入的視頻數(shù)據(jù)文件中的音頻串實例;圖4b為體現(xiàn)本發(fā)明之一個方面的字格和音素網(wǎng)格的示意圖,用于輸入的視頻數(shù)據(jù)文件中的音頻串實例;圖5為用戶終端的示意框圖,該終端允許用戶利用語音查詢檢索數(shù)據(jù)庫中的信息;圖6為一對字格和音素網(wǎng)格的示意圖,如兩個發(fā)言人的音頻串;圖7為用戶終端的示意框圖,該終端允許利用根據(jù)用戶輸入的音頻信號生成的注釋數(shù)據(jù),給數(shù)據(jù)文件做注釋;圖8為音素和字格注釋數(shù)據(jù)的示意圖,該注釋數(shù)據(jù)是為了給數(shù)據(jù)文件做注釋而根據(jù)用戶輸入的發(fā)言生成的;圖9為用戶終端的示意框圖,該終端允許利用根據(jù)用戶的打字輸入生成的注釋數(shù)據(jù),給數(shù)據(jù)文件做注釋;圖10為音素和字格注釋數(shù)據(jù)的示意圖,該注釋數(shù)據(jù)是為了給數(shù)據(jù)文件做注釋而根據(jù)用戶的打字輸入生成的;圖11為一個示意框圖,表示文檔注釋系統(tǒng)的形式;圖12為備擇文檔注釋系統(tǒng)的示意框圖;圖13為另一種文檔注釋系統(tǒng)的示意框圖;圖14為一個示意框圖,表示根據(jù)視頻數(shù)據(jù)文件中包含的腳本數(shù)據(jù)生成音素和字格的方式;圖15a為字格和音素網(wǎng)格的示意圖,表示字格節(jié)點的相對定時;圖15b為一個示意圖,表示劃分為數(shù)據(jù)塊的字格和音素網(wǎng)格節(jié)點;圖16a為一個示意圖,表示與字格和音素網(wǎng)格之一個節(jié)點相對應(yīng)的數(shù)據(jù)的格式;圖16b為一個示意圖,表示定義字格和音素網(wǎng)格的數(shù)據(jù)流;
圖17為一個流程圖,表示根據(jù)本發(fā)明之一種實施方式構(gòu)造字格和音素網(wǎng)格的過程;圖18a至18h為示意圖,表示字格和音素網(wǎng)格的構(gòu)造;圖19a至19h為示意圖,表示定義字格和音素網(wǎng)格的數(shù)據(jù)流的構(gòu)造;圖20a至20c為示意圖,表示插入長鏈表時字格和音素網(wǎng)格的更新處理;圖21a至21b為示意圖,表示插入附加節(jié)點時字格和音素網(wǎng)格的更新處理;圖22為一個流程圖,表示調(diào)整偏移量的過程;圖23a和23b為示意圖,表示將數(shù)據(jù)塊分割處理應(yīng)用于字格和音素網(wǎng)格;以及圖24為一個框圖,表示音素和單詞注釋器根據(jù)輸入的視頻數(shù)據(jù)文件生成注釋數(shù)據(jù)的方法。
可以使用專用硬件電路實現(xiàn)本發(fā)明的實施方式,但是本文使用計算機軟件(即,代碼)實現(xiàn)所述實施方式,其中計算機軟件連同諸如個人計算機、工作站、影印機、傳真機、個人數(shù)字助理(PDA)之類的處理硬件一起運行。
圖1表示可對其進行編程以實現(xiàn)本發(fā)明之實施方式的個人計算機(PC)1。經(jīng)由接口11,將鍵盤3、定點設(shè)備5、麥克風(fēng)7和電話線9,連接到PC 1。用戶可利用鍵盤3和定點設(shè)備5控制該系統(tǒng)。麥克風(fēng)7將用戶輸入的聲頻語音信號,轉(zhuǎn)換為等效電信號,然后提供給PC 1進行處理。將內(nèi)部調(diào)制解調(diào)器和語言接收電路(未示出)連接到電話線9,從而PC 1能夠與遠程計算機或遠程用戶通信。
在諸如磁盤13之類的存儲設(shè)備上,或者通過經(jīng)由內(nèi)部調(diào)制解調(diào)器和電話線9從因特網(wǎng)(未示出)上下載軟件,提供使得PC1根據(jù)本發(fā)明運行的程序指令,以便與現(xiàn)有PC1一同使用。
數(shù)據(jù)文件注釋圖2為一個框圖,表示在本實施方式中利用音素和單詞注釋單元25生成輸入數(shù)據(jù)文件23的注釋數(shù)據(jù)的方式。如圖所示,在數(shù)據(jù)組合單元27中,組合生成的音素和單詞注釋數(shù)據(jù)21與數(shù)據(jù)文件23,然后將輸出的組合數(shù)據(jù)文件,輸入到數(shù)據(jù)庫29中。在本實施方式中,注釋數(shù)據(jù)21包括組合音素(或具有音素特征的成分)和字格,音素和字格允許用戶利用語音查詢檢索數(shù)據(jù)庫中的信息。正如熟練技術(shù)人員理解的那樣,數(shù)據(jù)文件23可以為各種類型的數(shù)據(jù)文件,如視頻文件、音頻文件和多媒體文件等。
人們提出了通過使視頻數(shù)據(jù)文件的音頻數(shù)據(jù)通過自動語音識別單元,生成音頻流的N個最佳單詞列表作為注釋數(shù)據(jù)的系統(tǒng)。然而,基于單詞的系統(tǒng)有許多問題。這些問題包括(i)現(xiàn)有語音識別系統(tǒng)進行識別時會出現(xiàn)許多基礎(chǔ)錯誤;(ii)現(xiàn)有自動語音識別系統(tǒng)使用約含20,000至100,000單詞的字典,并且不能生成詞匯表之外的單詞;以及(iii)生成的N個最佳列表隨每個步驟中的假設(shè)數(shù)指數(shù)增長,因此長時間發(fā)言的注釋數(shù)據(jù)將變得非常大。
當(dāng)使用同一自動語音識別系統(tǒng)生成注釋數(shù)據(jù),然后使用該系統(tǒng)檢索相應(yīng)數(shù)據(jù)文件時,由于可能出現(xiàn)相同的譯碼錯誤,所以第一個問題無關(guān)緊要。然而,由于自動語音識別系統(tǒng)每年都在進步,因此未來將不會出現(xiàn)某些類型的錯誤,從而未來將不能檢索相應(yīng)數(shù)據(jù)文件。關(guān)于第二個問題,該問題對視頻數(shù)據(jù)應(yīng)用非常重要,因為用戶很可能使用名稱和地點(語音識別字典不包括的名稱和地點)作為輸入查詢條目。對于上述名稱,自動語音識別系統(tǒng)通常利用發(fā)音相似的單詞代替詞匯表不包括的單詞,因此造成訛誤譯碼。因此,不能根據(jù)請求檢索所需的數(shù)據(jù)文件。
相反,借助提議的音素和字格注釋數(shù)據(jù),可以利用數(shù)據(jù)庫29中的單詞數(shù)據(jù)進行快速有效的搜索,如果此搜索不能提供所需的數(shù)據(jù)文件,則使用更魯棒的音素數(shù)據(jù)進行搜索。音素和字格為只有一個入口點和一個出口點的有向無環(huán)圖。它代表數(shù)據(jù)文件內(nèi)音頻流的不同語法分析。它并不僅僅是具有許多選擇的單詞序列,因為每個單詞并非只能由一個選擇取代,一個單詞可以代替兩個或多個單詞或音素,并且整個結(jié)構(gòu)能夠代替一個或多個單詞或音素。因此,音素和字格內(nèi)的數(shù)據(jù)密度基本對全部音頻數(shù)據(jù)保持線性,而不是像N個最佳單詞列表技術(shù)那樣呈指數(shù)增長。正如語音識別的熟練技術(shù)人員了解的那樣,由于音素是字典獨立的,并且允許字典處理詞匯表之外的單詞,如名稱、地點、外來詞等,所以使用音素數(shù)據(jù)更魯棒。使用音素數(shù)據(jù)還能使得該系統(tǒng)更能適應(yīng)未來,因為即使原始的自動語音識別系統(tǒng)不理解單詞,也能檢索數(shù)據(jù)庫中存儲的數(shù)據(jù)文件。
以下參照圖3說明生成視頻數(shù)據(jù)文件之音素和字格注釋數(shù)據(jù)的方式。如圖所示,視頻數(shù)據(jù)文件31包括視頻數(shù)據(jù)31-1和音頻數(shù)據(jù)31-2,前者定義構(gòu)成視頻序列的圖像序列,后者定義與視頻序列關(guān)聯(lián)的音頻。眾所周知,音頻數(shù)據(jù)31-2和視頻數(shù)據(jù)31-1在時間上同步,因此使用時,同時向用戶提供視頻和音頻數(shù)據(jù)。
正如圖3所示,在本實施方式中,將音頻數(shù)據(jù)31-2輸入到自動語音識別單元33中,單元33能夠生成與音頻數(shù)據(jù)流31-2相對應(yīng)的音素網(wǎng)格。自動語音識別單元33是一項普通技術(shù),因此不再贅述。有關(guān)此類語音識別系統(tǒng)之詳細信息,請讀者參閱《語音識別基礎(chǔ)》,作者Lawrence Rabiner和Biing-Hwang Juang,第42頁至第50頁。
圖4a表示語音識別單元33輸出的、短語“…now is the winterof our…”對應(yīng)的輸入音頻的音素網(wǎng)格數(shù)據(jù)的形式。自動語音識別單元33辨別以上輸入音頻發(fā)言對應(yīng)的許多不同的可能音素串。例如,語音識別系統(tǒng)認(rèn)為音頻串中的第一個音素為/m/或/n/。為清晰起見,僅僅顯示第一音素的選擇。正如語音識別的熟練技術(shù)人員了解的那樣,不同可能性可以具有由語音識別單元33生成的特有權(quán)重,權(quán)重表示語音識別單元的輸出的置信度。例如,音素/n/的權(quán)重為0.9,而音素/m/的權(quán)重為0.1,表示語音識別系統(tǒng)對相應(yīng)部分的音頻代表音素/n/相當(dāng)確信,但也有可能為音素/m/。然而,在本實施方式中,并不對音素進行加權(quán)處理。
正如圖3所示,將自動語音識別單元33輸出的音素網(wǎng)格數(shù)據(jù)35,輸入到字譯碼器37中,后者能夠辨別音素網(wǎng)格數(shù)據(jù)35內(nèi)的可能單詞。在本實施方式中,把字譯碼器37辨別的單詞,合并到音素網(wǎng)格數(shù)據(jù)結(jié)構(gòu)中。例如,對于圖4a所示的音素網(wǎng)格,字譯碼器37識別單詞“NOW”、“IS”、“THE”、“WINTER”、“OF”和“OUR”。正如圖4b所示,將辨別出的單詞添加到語音識別單元33輸出的音素網(wǎng)格數(shù)據(jù)結(jié)構(gòu)中,以生成構(gòu)成注釋數(shù)據(jù)31-3的音素和字格數(shù)據(jù)結(jié)構(gòu)。然后組合注釋數(shù)據(jù)31-3與視頻數(shù)據(jù)文件31,以便生成增音視頻數(shù)據(jù)文件31′,并在數(shù)據(jù)庫29中存儲該文件。正如熟練技術(shù)人員理解的那樣,與音頻數(shù)據(jù)31-2和視頻數(shù)據(jù)31-1在時間上同步類似,使注釋數(shù)據(jù)31-3與視頻數(shù)據(jù)31-1和音頻數(shù)據(jù)31-2在時間上同步,并將其關(guān)聯(lián)起來,因此通過搜索定位注釋數(shù)據(jù)31-3的對應(yīng)部分,可以檢索所需的視頻和音頻數(shù)據(jù)。
在本實施方式中,數(shù)據(jù)庫29中存儲的注釋數(shù)據(jù)31-3具有以下通式標(biāo)題-開始時間-表示單詞、音素或二者之混合的標(biāo)志-時間索引,將存儲器內(nèi)注釋數(shù)據(jù)塊的位置關(guān)聯(lián)到給定的時間點。
-使用的單詞集(即,字典)-使用的音素集-音素概率數(shù)據(jù)-詞匯所屬語言數(shù)據(jù)塊(i)i=0,1,2,……節(jié)點Njj=0,1,2,……-節(jié)點從起始塊的時間偏移量-音素鏈表(k)k=0,1,2,……節(jié)點Nj的偏移量=Nk-Nj(Nk為鏈表K延伸到的節(jié)點)或者如果Nk在數(shù)據(jù)塊(i+1)中,則節(jié)點Nj的偏移量=Nk+Nb-Nj(其中Nb為數(shù)據(jù)塊(i)中的節(jié)點數(shù))與鏈表(k)關(guān)聯(lián)的音素-單詞鏈表(l)l=0,1,2,……節(jié)點Ni的偏移量=Ni-Nj(Ni為鏈表l延伸到的節(jié)點)或者如果Nk在數(shù)據(jù)塊(i+1)中,則節(jié)點Nj的偏移量=Nk+Nb-Nj(其中Nb為數(shù)據(jù)塊(i)中的節(jié)點數(shù))與鏈表(l)關(guān)聯(lián)的單詞標(biāo)題中的開始時間數(shù)據(jù)能夠辨別數(shù)據(jù)的傳輸時間和日期。例如,如果視頻文件是新聞廣播,則開始時間包括廣播的準(zhǔn)確時間和廣播日期。
由于并非數(shù)據(jù)庫內(nèi)的所有數(shù)據(jù)文件均包含上述組合音素和字格注釋數(shù)據(jù),所以提供以上標(biāo)志,后者標(biāo)識注釋數(shù)據(jù)是字注釋數(shù)據(jù),還是音素注釋數(shù)據(jù),抑或是混合數(shù)據(jù),此時,將使用不同的搜索策略來搜索注釋數(shù)據(jù)。
在本實施方式中,將注釋數(shù)據(jù)劃分為數(shù)據(jù)塊,以便允許搜索跳到給定音頻數(shù)據(jù)流的注釋數(shù)據(jù)的中間位置。因此,標(biāo)題包括一個時間索引,時間索引將存儲器內(nèi)注釋數(shù)據(jù)塊的位置,關(guān)聯(lián)到起始時間和與塊的開始相對應(yīng)的時間之間的給定時間偏移量。
標(biāo)題還包括定義所用單詞集(即,字典)、所用音素集以及詞匯所屬語言的數(shù)據(jù)。同時,標(biāo)題可以包含用于生成注釋數(shù)據(jù)的自動語音識別系統(tǒng)的詳細信息,以及生成注釋數(shù)據(jù)期間使用的任何適當(dāng)設(shè)置。
音素概率數(shù)據(jù)定義諸如自動語音識別系統(tǒng)之類的、生成注釋數(shù)據(jù)的系統(tǒng)的插入、刪除、錯誤識別和譯碼的概率。
標(biāo)題之后是注釋數(shù)據(jù)塊,對于數(shù)據(jù)塊內(nèi)的每個節(jié)點,注釋數(shù)據(jù)塊辨別該節(jié)點從起始塊的時間偏移量,利用音素將該節(jié)點鏈接到其他節(jié)點的音素鏈表,以及利用單詞將該節(jié)點鏈接到其他節(jié)點的單詞鏈表。每個音素鏈表和單詞鏈表辨別與該鏈表關(guān)聯(lián)的音素或單詞。同時辨別到當(dāng)前節(jié)點的偏移量。例如,如果利用音素鏈表將節(jié)點N50鏈接到節(jié)點N55,則到節(jié)點N50的偏移量為5。正如熟練技術(shù)人員理解的那樣,通過使用上述偏移量表示允許將連續(xù)注釋數(shù)據(jù)劃分為單獨塊。
在自動語音識別單元輸出權(quán)重的實施方式中,該數(shù)據(jù)結(jié)構(gòu)還包括權(quán)重或置信度分值,其中權(quán)重表示語音識別單元輸出的置信度。具體而言,為各節(jié)點提供置信度分值,后者表示到達該節(jié)點的置信度,并且每個音素和單詞鏈表將包含依賴于相應(yīng)音素或單詞之權(quán)重的躍遷分值。通過放棄具有較低置信度分值的匹配,使用上述權(quán)重控制數(shù)據(jù)文件的搜索和檢索。
數(shù)據(jù)文件檢索圖5為用戶終端59的框圖,利用該用戶終端從數(shù)據(jù)庫29中檢索帶有注釋的數(shù)據(jù)文件。例如,用戶終端59可以為個人計算機、手持設(shè)備等。如圖所示,在本實施方式中,用戶終端59包括帶有注釋的數(shù)據(jù)文件的數(shù)據(jù)庫29,自動語音識別單元51,搜索引擎53,控制單元55和顯示器57。操作時,自動語音識別單元51能夠處理經(jīng)由麥克風(fēng)7和輸入線路61接收的來自用戶39的輸入語音查詢,以生成相應(yīng)音素和單詞數(shù)據(jù)。該數(shù)據(jù)可以采取音素和字格的形式,但并非必需如此。然后將音素和單詞數(shù)據(jù)輸入到控制單元55中,控制單元55開始利用搜索引擎53搜索數(shù)據(jù)庫29。然后將搜索引擎53生成的搜索結(jié)果傳回到控制單元55,后者分析搜索結(jié)果,生成并通過顯示器57向用戶顯示正確的顯示數(shù)據(jù)。共同未決申請PCT/GB00/00718與GB9925561.4說明了以上搜索技術(shù)的詳細信息,這里引用其內(nèi)容作為參考。
備擇實施方式正如熟練技術(shù)人員理解的那樣,數(shù)據(jù)庫中數(shù)據(jù)文件的此類音素和單詞注釋,為用戶利用語音搜索數(shù)據(jù)庫提供了一種方便有效的方式。在所示實施方式中,給單一音頻數(shù)據(jù)流做注釋,然后在數(shù)據(jù)庫中進行存儲以便用戶檢索。正如熟練技術(shù)人員理解的那樣,當(dāng)輸入數(shù)據(jù)文件與視頻數(shù)據(jù)文件相對應(yīng)時,數(shù)據(jù)文件內(nèi)的音頻數(shù)據(jù)通常包括不同發(fā)言人的音頻數(shù)據(jù)??梢葬槍γ總€發(fā)言人的音頻數(shù)據(jù),生成獨立的音素和字格注釋數(shù)據(jù),而不是生成該音頻數(shù)據(jù)的單一注釋數(shù)據(jù)流。通過根據(jù)語音信號的節(jié)距或其他區(qū)別特征辨別與每個發(fā)言人相對應(yīng)的音頻數(shù)據(jù),然后分別給不同發(fā)言人的音頻做注釋,實現(xiàn)上述處理。如果音頻數(shù)據(jù)是采用立體聲方式記錄的,或者在生成音頻數(shù)據(jù)時使用一組麥克風(fēng),則由于能夠通過處理音頻數(shù)據(jù)抽取每個發(fā)言人的數(shù)據(jù),所以也能實現(xiàn)上述處理。
圖6表示上述實施方式中的注釋數(shù)據(jù)的格式,其中第一發(fā)言人發(fā)出單詞“…this so”,而第二發(fā)言人回答“yes”。如圖所示,彼此相對于對方同步不同發(fā)言人的音頻數(shù)據(jù)的注釋數(shù)據(jù),從而注釋數(shù)據(jù)仍然與數(shù)據(jù)文件內(nèi)的視頻和音頻數(shù)據(jù)同步。在此類實施方式中,數(shù)據(jù)結(jié)構(gòu)中的標(biāo)題信息最好包括注釋數(shù)據(jù)內(nèi)不同發(fā)言人的列表,以及為每個發(fā)言人定義該發(fā)言人的語言、重音、方言和語音集的數(shù)據(jù),并且每個數(shù)據(jù)庫均能辨別在該數(shù)據(jù)庫內(nèi)起作用的發(fā)言人。
在上述實施方式中,利用語音識別系統(tǒng)生成注釋數(shù)據(jù),以便給數(shù)據(jù)庫中的數(shù)據(jù)文件做注釋。正如熟練技術(shù)人員理解的那樣,也可以利用其他技術(shù)生成上述注釋數(shù)據(jù)。例如,操作員可以收聽音頻數(shù)據(jù),然后生成語音和單詞轉(zhuǎn)錄,從而手工生成注釋數(shù)據(jù)。
在上述實施方式中,注釋數(shù)據(jù)是根據(jù)數(shù)據(jù)文件本身中存儲的音頻生成的。正如熟練技術(shù)人員理解的那樣,也可以采用其他技術(shù)來輸入注釋數(shù)據(jù)。圖7表示用戶終端59的形式,該用戶終端允許用戶經(jīng)由麥克風(fēng)7輸入語音注釋數(shù)據(jù),以便給數(shù)據(jù)庫29中存儲的數(shù)據(jù)文件91做注釋。在本實施方式中,數(shù)據(jù)文件91包括諸如照相機之類的設(shè)備生成的二維圖像。用戶終端59允許用戶39利用適當(dāng)注釋給2D圖像做注釋,以便隨后利用該注釋檢索數(shù)據(jù)庫29中的2D圖像。在本實施方式中,利用自動語音識別單元51,將輸入的語音注釋信號轉(zhuǎn)換為音素和字格注釋數(shù)據(jù),然后傳送到控制單元55。響應(yīng)用戶的輸入,控制單元55從數(shù)據(jù)庫29中檢索正確的2D文件,然后將音素和單詞注釋數(shù)據(jù)附加到數(shù)據(jù)文件91上。此后將增音數(shù)據(jù)文件返回到數(shù)據(jù)庫29。在上述注釋處理步驟中,控制單元55能夠在顯示器57上顯示2D圖像,從而用戶確保該注釋數(shù)據(jù)是與正確的數(shù)據(jù)文件91關(guān)聯(lián)的。
自動語音識別單元51生成音素和字格注釋數(shù)據(jù),其方法是(i)生成輸入發(fā)言的音素網(wǎng)格;(ii)然后辨別音素網(wǎng)格內(nèi)的單詞;以及(iii)最后組合二者。圖8表示為輸入發(fā)言“picture of the Taj-Mahal”生成的音素和字格注釋數(shù)據(jù)的形式。如圖所示,自動語音識別單元辨別與輸入發(fā)言相對應(yīng)的許多不同的可能音素串。正如圖8所示,將自動語音識別單元51在音素網(wǎng)格內(nèi)識別的單詞,合并到音素網(wǎng)格數(shù)據(jù)結(jié)構(gòu)中。如圖所示,對于以上示例短語,自動語音識別單元51識別單詞“picture”、“of”、“off”、“the”、“other”、“ta”、“tar”、“iam”、“ah”、“hal”、“ha”和“al”。然后,控制單元55將以上注釋數(shù)據(jù)添加到2D圖像數(shù)據(jù)文件91中,并在數(shù)據(jù)庫29中存儲該文件。
正如熟練技術(shù)人員理解的那樣,可以利用本實施方式為各種類型的圖像做注釋,如給病人的X光圖片、諸如NMR掃描和超聲波掃描之類的3D視頻做注釋。也可以對諸如音頻數(shù)據(jù)或地震數(shù)據(jù)之類的一維數(shù)據(jù)作注釋。
在上述實施方式中,利用有聲注釋給數(shù)據(jù)文件做注釋。正如熟練技術(shù)人員理解的那樣,也可以采用其他技術(shù)來輸入注釋數(shù)據(jù)。例如,圖9表示用戶終端59的形式,該用戶終端允許用戶通過鍵盤3輸入打字注釋數(shù)據(jù),以便給數(shù)據(jù)庫29中存儲的數(shù)據(jù)文件91作注釋。在本實施方式中,由語音轉(zhuǎn)錄單元75將打字輸入轉(zhuǎn)換為音素和字格注釋數(shù)據(jù)(通過使用內(nèi)部語音字典(未示出)),然后傳送到控制單元55。響應(yīng)用戶的輸入,控制單元55從數(shù)據(jù)庫29中檢索正確的2D文件,然后將音素和單詞注釋數(shù)據(jù)附加到數(shù)據(jù)文件91上。此后將增音數(shù)據(jù)文件返回到數(shù)據(jù)庫29。在上述注釋處理步驟中,控制單元55能夠在顯示器57上顯示2D圖像,從而用戶確保該注釋數(shù)據(jù)是與正確的數(shù)據(jù)文件91關(guān)聯(lián)的。
圖10表示為輸入發(fā)言“picture of the Taj-Mahal”生成的音素和字格注釋數(shù)據(jù)的形式。正如圖2所示,音素和字格為只有一個入口點和一個出口點的有向無環(huán)圖。它表示用戶輸入的不同語法分析。如圖所示,語音轉(zhuǎn)錄單元75辨別與打字輸入相對應(yīng)的許多不同的可能音素串。
圖11為說明文檔注釋系統(tǒng)的框圖。特別地,如圖11所示,利用文檔掃描儀103文本文檔101轉(zhuǎn)換為圖像數(shù)據(jù)文件。然后將圖像數(shù)據(jù)文件傳送到光學(xué)字符識別(OCR)單元105,后者將文檔101的圖像數(shù)據(jù)轉(zhuǎn)換為電子文本。接著,將電子文本提供給語音轉(zhuǎn)錄單元107,該單元生成音素和單詞注釋數(shù)據(jù)109,并將其添加到掃描儀103輸出的圖像文件中,以形成數(shù)據(jù)文件111。如圖所示,在數(shù)據(jù)庫29中存儲數(shù)據(jù)文件111,以便隨后檢索。在本實施方式中,注釋文件109包括上述組合音素和字格,組合音素和字格允許用戶利用語音查詢檢索數(shù)據(jù)庫29中的數(shù)據(jù)文件111。
圖12表示圖15所示文檔注釋系統(tǒng)的修改。圖16所示系統(tǒng)與圖11所示系統(tǒng)之間的區(qū)別在于,通過使用光學(xué)字符識別單元105的輸出,而不是掃描儀103輸出的圖像文件,生成數(shù)據(jù)文件113。圖12所示系統(tǒng)的其他部分與圖11所示系統(tǒng)的其他部分相同,因此不再贅述。
圖13表示圖11所示文檔注釋系統(tǒng)的另一種修改。在圖13所示的實施方式中,利用傳真單元115而非掃描儀103接收輸入文檔。然后按照圖11所示的處理掃描儀103輸出的圖像數(shù)據(jù)的方式,處理傳真機輸出的圖像數(shù)據(jù),因此不再贅述。
在上述實施方式中,利用語音轉(zhuǎn)錄單元107生成注釋數(shù)據(jù),以便給圖像或文本數(shù)據(jù)做注釋。正如熟練技術(shù)人員理解的那樣,也可以使用其他技術(shù)。例如,操作員可以根據(jù)文檔本身的圖像手工生成上述注釋數(shù)據(jù)。
在第一實施方式中,將數(shù)據(jù)文件31的音頻數(shù)據(jù)傳送到自動語音識別單元,以生成音素注釋數(shù)據(jù)。在某些情況中,數(shù)據(jù)文件中存在音頻數(shù)據(jù)的轉(zhuǎn)錄副本。圖14表示此種實施方式。在本實施方式中,數(shù)據(jù)文件81代表具有視頻數(shù)據(jù)81-1、音頻數(shù)據(jù)81-2和腳本數(shù)據(jù)81-3的數(shù)字視頻文件,腳本數(shù)據(jù)81-3定義電視片中不同演員的臺詞。如圖所示,將腳本數(shù)據(jù)81-3傳送到文本至音素轉(zhuǎn)換器83,該轉(zhuǎn)換器通過使用存儲的字典,生成音素網(wǎng)格數(shù)據(jù)85,其中字典將單詞翻譯為可能的音素序列。然后,組合音素網(wǎng)格數(shù)據(jù)85與腳本數(shù)據(jù)81-3,以生成上述音素和字格注釋數(shù)據(jù)81-4。接著,將注釋數(shù)據(jù)添加到數(shù)據(jù)文件81中,以生成增音數(shù)據(jù)文件81′,并添加到數(shù)據(jù)庫29中。正如熟練技術(shù)人員理解的那樣,由于腳本數(shù)據(jù)通常包含說話人的指示,所以上述實施方式便于生成視頻數(shù)據(jù)文件內(nèi)不同發(fā)言人的不同音素和字格注釋數(shù)據(jù)。然后,通過利用自動語音識別系統(tǒng)(未示出)強行調(diào)整腳本數(shù)據(jù)與音頻數(shù)據(jù)的時間,實現(xiàn)音素和字格注釋數(shù)據(jù)與視頻和音頻數(shù)據(jù)的同步。
在上述實施方式中,利用音素(或具有音素特征的成分)和字格給數(shù)據(jù)文件做注釋。正如語音識別和語音處理領(lǐng)域的熟練技術(shù)人員理解的那樣,詳細說明書和權(quán)利要求書中的單詞“音素”并不限于其語言學(xué)上的含義,而是包括標(biāo)準(zhǔn)語音識別系統(tǒng)辨別、使用的各種子詞,如音素、字節(jié)、片假名(日語字母表)等。
網(wǎng)格生成在以上詳細說明書中,參照圖3說明圖4b所示的音素和字格數(shù)據(jù)結(jié)構(gòu)的生成。以下參照圖15至17說明該數(shù)據(jù)結(jié)構(gòu)的最佳形式,包括將節(jié)點劃分為數(shù)據(jù)塊的最佳方式。此后,參照圖18至22說明生成最佳數(shù)據(jù)結(jié)構(gòu)的一種方式。
圖15a表示網(wǎng)格的每個節(jié)點相對于公用零時的定時,在本例中,設(shè)置公用零時以至第一節(jié)點在0.1秒處出現(xiàn)。請注意,圖15a只是示意圖,因此時軸不是線性的。
正如圖15b所示,在本實施方式中,將所有節(jié)點劃分為三個數(shù)據(jù)塊。在本實施方式中,利用塊標(biāo)記或塊標(biāo)志202、204、206和208作為進入數(shù)據(jù)塊的節(jié)點的分界線。塊標(biāo)記204、206和208位于每個數(shù)據(jù)塊的最后一個節(jié)點之后,但是為了清晰起見,在圖15b中將其表示為有一點間隔。塊標(biāo)記204標(biāo)記塊0的結(jié)束和塊1的開始,同樣,塊標(biāo)記206標(biāo)記塊1的結(jié)束和塊2的開始。塊標(biāo)記208位于網(wǎng)格的結(jié)尾,因此僅僅表示塊2的結(jié)束。塊標(biāo)記202位于時間t=0.00秒的位置,以便提供塊0的開始的分界線。在本實施方式中,塊0具有5個節(jié)點,塊1具有5個節(jié)點,塊2具有7個節(jié)點。
相對于每個塊的開始時間,提供每個節(jié)點的時間。這并不影響塊0中所有節(jié)點的定時。然而按照圖15a,對于其他各塊,新的偏移定時與每個節(jié)點的絕對定時不同。在本實施方式中,除塊0之外的其他各塊的開始時間為前一塊的最后一個節(jié)點的時間。例如,正如在圖15a中看到的那樣,音素/ih/和/z/之間的節(jié)點在0.71秒處出現(xiàn),并且是塊1的最后一個節(jié)點。正如從圖15a看到的那樣,下一節(jié)點,即,音素/z/和音素/dh/之間的節(jié)點,在0.94秒處出現(xiàn),0.94秒為0.71秒之后的0.23秒。因此,正如在圖15b中看到的那樣,塊1的第一節(jié)點的偏移時間為0.23秒。
使用相對于每個塊的開始而不是整個網(wǎng)格的開始確定的時間偏移量,能夠在動態(tài)范圍方面提供以下優(yōu)點。隨著網(wǎng)格總時間的增加,需要相應(yīng)增加用于記錄網(wǎng)格結(jié)構(gòu)內(nèi)的定時值的數(shù)據(jù)類型的動態(tài)范圍,這會消耗大量內(nèi)存。如果網(wǎng)格結(jié)構(gòu)是為未知長度的數(shù)據(jù)文件提供的,例如,如果希望公用網(wǎng)格結(jié)構(gòu)能夠給時長為一分鐘的電視廣告或時長為數(shù)小時的電影或電視節(jié)目做注釋,則情況將進一步惡化。相反,由于只需容納單一數(shù)據(jù)塊的最大期望時間偏移量,并且與數(shù)據(jù)文件的總的持續(xù)時間無關(guān),所以能夠顯著減少劃分為數(shù)據(jù)塊的網(wǎng)格結(jié)構(gòu)的對應(yīng)數(shù)據(jù)類型的動態(tài)范圍。在本實施方式中,使用的數(shù)據(jù)類型提供整數(shù)值,其中每個整數(shù)值表示以百分之一秒為單位測量的偏移時間。
圖15b還說明標(biāo)識為α和β的部分網(wǎng)格結(jié)構(gòu)。以下說明該條目的重要性。
以下參照圖16a說明保存音素和網(wǎng)格數(shù)據(jù)結(jié)構(gòu)之最佳方式中的每個節(jié)點的數(shù)據(jù)的格式,圖16a舉例說明網(wǎng)格的第一節(jié)點的數(shù)據(jù)的格式。該節(jié)點的數(shù)據(jù)的形式為7個數(shù)據(jù)成分210、212、214、216、218、220和222。
第一數(shù)據(jù)成分210規(guī)定該節(jié)點距離數(shù)據(jù)塊的開始的時間偏移量。在本例中,其值為0.10秒,并利用上述整數(shù)數(shù)據(jù)類型表示。
第二數(shù)據(jù)成分212表示圖15a和15b所示的從第一節(jié)點延伸出來的單詞鏈表“NOW”。第三數(shù)據(jù)成分規(guī)定前一鏈表(即,單詞鏈表“NOW”)的節(jié)點偏移量,表示前一鏈表經(jīng)過的節(jié)點數(shù)。現(xiàn)在參照圖15a和15b,可以看出,單詞鏈表“NOW”延伸到的節(jié)點為該鏈表從該節(jié)點開始延伸到的第三節(jié)點,因此節(jié)點偏移量為3,正如圖16a中數(shù)值003表示的那樣。在本實施方式中,用于實現(xiàn)節(jié)點偏移量的數(shù)據(jù)類型為提供整數(shù)值的數(shù)據(jù)類型。
正如圖16a所示,第四數(shù)據(jù)成分216表示從第一節(jié)點延伸到第二節(jié)點的音素/n/,因此節(jié)點偏移量為1,并使得第五數(shù)據(jù)成分218的值為001。同樣,第六數(shù)據(jù)成分220表示音素鏈表/m/,第七數(shù)據(jù)成分222表示該鏈表的節(jié)點偏移量等于1,并用001表示。
可以采用任何一種合適方式,作為數(shù)據(jù)成分212、216和220表示與其鏈表關(guān)聯(lián)的各個單詞或音素的方式。在本實施方式中,數(shù)據(jù)成分212、216和220由與單詞索引項值(在單詞鏈表情況中)或音素索引項值(在音素鏈表情況中)相對應(yīng)的整數(shù)值組成。索引項值用來標(biāo)識包含單詞或音素列表的對應(yīng)單詞或音素索引中的項目。在本實施方式中,在早先說明的注釋數(shù)據(jù)31-3的標(biāo)題部分中,存儲對應(yīng)單詞或音素索引。在其他實施方式中,標(biāo)題本身僅僅包含存儲一個或多個單詞或音素索引的獨立數(shù)據(jù)庫的交叉引用標(biāo)識。
通常,可以按照任何希望的相對順序,采用圖16a所示的數(shù)據(jù)格式,放置與給定節(jié)點相對應(yīng)的不同鏈表。然而,在本實施方式中,采用以下優(yōu)選順序,亦即,首先將具有最大節(jié)點偏移量的單詞或音素鏈表(“最長”鏈表),放置到該序列中。此時,“最長”鏈表為節(jié)點偏移量為3個節(jié)點的單詞鏈表“ NOW”,因此,將該鏈表放置到節(jié)點偏移量均為1的“較短”音素鏈表/n/和/m/的前面。稍后說明以上優(yōu)選排列的優(yōu)點。
將圖16a所示形式的每個節(jié)點的數(shù)據(jù),放置到按時間排序的序列中,以形成定義全部網(wǎng)格(除標(biāo)題以外)的數(shù)據(jù)流。圖16b表示圖15b所示網(wǎng)格的數(shù)據(jù)流。如圖所示,該數(shù)據(jù)流另外包括充當(dāng)節(jié)點標(biāo)志的數(shù)據(jù)成分225至241,以標(biāo)識它們之后的數(shù)據(jù)成分指向的下一個節(jié)點。該數(shù)據(jù)流還包括其他數(shù)據(jù)成分244、246、248和250,實現(xiàn)先前參照圖15b描述的塊標(biāo)記202、204、206和208。
早些時候參照圖4b說明了網(wǎng)格數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)塊排列的主要優(yōu)點,即,允許搜索跳到給定音頻數(shù)據(jù)流的注釋數(shù)據(jù)的中間位置。為此,參照圖4b說明的標(biāo)題還包括一個時間索引,時間索引將存儲器內(nèi)注釋數(shù)據(jù)塊的位置,關(guān)聯(lián)到起始時間和與塊的開始相對應(yīng)的時間之間的給定時間偏移量。正如上面參照圖15b說明的那樣,在本實施方式中,給定數(shù)據(jù)塊之開始對應(yīng)的時間,為給定數(shù)據(jù)庫的前一數(shù)據(jù)塊中最后一個節(jié)點的時間。
以下說明圖15b所示數(shù)據(jù)塊排列展示的其他特征和優(yōu)點。根據(jù)單詞或音素鏈表在數(shù)據(jù)庫之間的允許延伸程度,確定數(shù)據(jù)塊。例如,在本實施方式中,塊位置實現(xiàn)以下標(biāo)準(zhǔn),鏈表不能進入相鄰數(shù)據(jù)塊之外的其他數(shù)據(jù)塊。例如,考慮塊0的節(jié)點,可以從圖15b中看出,音素鏈表/n/、/m/、/oh/、/w/和/ih/以及單詞鏈表“NOW”只能進入源節(jié)點所在的相同數(shù)據(jù)塊,即,標(biāo)準(zhǔn)允許的數(shù)據(jù)塊,而音素鏈表/z/和單詞鏈表“IS”分別從塊0進入塊1,即,標(biāo)準(zhǔn)允許的相鄰塊。然而,沒有進入塊2的鏈表,因為此類鏈表將延伸到塊0的相鄰塊(即,塊1)之外,這正是標(biāo)準(zhǔn)所不允許的。
借助于上面實現(xiàn)的數(shù)據(jù)塊,通過遵守上述標(biāo)準(zhǔn),能夠獲得以下優(yōu)點。如果稍后需要將其他數(shù)據(jù)插入到音素和字格結(jié)構(gòu)中,則包括插入一個或多個附加節(jié)點。此時,需要將“越過”新插入節(jié)點的現(xiàn)有鏈表的節(jié)點偏移量加1,因為越過新插入節(jié)點的現(xiàn)有鏈表的節(jié)點數(shù)將包括新插入的節(jié)點。例如,正如從圖15b看到的那樣,如果在塊2中時間為0.50秒的位置插入一個新節(jié)點,則從位于0.47秒的節(jié)點延伸到位于0.55秒的節(jié)點的音素鏈表/v/,其節(jié)點偏移量將為2,而不是其原始值1,同樣,從位于0.34秒的節(jié)點延伸到位于0.55秒的節(jié)點的單詞鏈表“OF”,其節(jié)點偏移量需要從原始節(jié)點偏移量2變?yōu)?。正如圖16b所示數(shù)據(jù)流表示的那樣,需要將數(shù)值為001的數(shù)據(jù)成分252的數(shù)值變?yōu)?02,并將原始值為002的數(shù)據(jù)成分254的數(shù)值變?yōu)?03。
在插入附加節(jié)點并處理由此引起的節(jié)點偏移量的改變時,必須從新插入的節(jié)點開始向后搜索網(wǎng)格數(shù)據(jù)結(jié)構(gòu),目的是分析早先存在的節(jié)點,以確定其節(jié)點偏移量足以延伸到新插入節(jié)點之外的鏈表。根據(jù)以上標(biāo)準(zhǔn)排列網(wǎng)格數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)塊的優(yōu)點在于,能夠減少需要分析的早先存在的節(jié)點的數(shù)目。更確切地說,只需分析插入節(jié)點的同一數(shù)據(jù)塊中新插入節(jié)點之前的節(jié)點,以及插入新節(jié)點的數(shù)據(jù)塊之前一相鄰數(shù)據(jù)塊中的節(jié)點。例如,如果在塊2中0.50秒的位置插入一個新節(jié)點,則只需分析塊2中新插入節(jié)點之前的四個現(xiàn)有節(jié)點,以及塊1中的5個節(jié)點。鑒于以上討論的數(shù)據(jù)塊標(biāo)準(zhǔn),無需搜索塊0中的任意節(jié)點。
隨著網(wǎng)格長度的增加以及形成的數(shù)據(jù)塊數(shù)目的增加,以上優(yōu)點將更加有利。另外,上述優(yōu)點不僅適用于在其他完全網(wǎng)格中插入新節(jié)點,而且適用于正在進行的網(wǎng)格構(gòu)建過程,當(dāng)無需按照嚴(yán)格時間順序在網(wǎng)格中插入節(jié)點時出現(xiàn)后一種情況。
另外請注意,可以改變特別選擇的只允許鏈表延伸到相鄰數(shù)據(jù)塊的標(biāo)準(zhǔn),例如,標(biāo)準(zhǔn)只允許鏈表延伸到四個數(shù)據(jù)塊,因此最多只需向后搜索四個數(shù)據(jù)塊。對于比較大的網(wǎng)格,特別是具有成百上千個數(shù)據(jù)塊的網(wǎng)格而言,在減少所需處理量方面,仍然具有明顯優(yōu)勢。熟練技術(shù)人員可以理解,可以選擇任意合適的塊數(shù)作為標(biāo)準(zhǔn)的界限,只需相應(yīng)修改向后搜索的塊數(shù)即可。
本實施方式的網(wǎng)格數(shù)據(jù)結(jié)構(gòu)包括另一種優(yōu)選改進,優(yōu)選改進涉及延伸到相鄰數(shù)據(jù)塊的單詞或音素鏈表。特別地,網(wǎng)格數(shù)據(jù)結(jié)構(gòu)還包括規(guī)定每個數(shù)據(jù)塊之兩個特征點的數(shù)據(jù)。每個數(shù)據(jù)塊的兩個特征點為圖15b所示的α和β。
將給定數(shù)據(jù)塊的β定義為從前一數(shù)據(jù)塊中發(fā)起的任一鏈表延伸到的給定數(shù)據(jù)塊內(nèi)的最新節(jié)點的時間。因此,對于塊1而言,β位于該塊內(nèi)的第一節(jié)點(即,音素鏈表/z/和單詞鏈表“IS”延伸到的節(jié)點),因為不存在從塊0發(fā)起的延伸到塊1之第一節(jié)點之外的其他鏈表。對于塊2而言,β位于第三節(jié)點,因為單詞鏈表“WINTER”從塊1延伸到該節(jié)點。對于網(wǎng)格結(jié)構(gòu)的第一塊(即,塊0)而言,實質(zhì)上不存在延伸到該塊的鏈表。因此,將本數(shù)據(jù)塊的β定義為在網(wǎng)格開始前出現(xiàn)。
將給定數(shù)據(jù)塊的α定義為鏈表從給定數(shù)據(jù)塊延伸到下一數(shù)據(jù)塊的給定數(shù)據(jù)塊中最早節(jié)點的時間。對于塊0而言,兩個鏈表延伸到塊1,即,單詞鏈表“IS”和音素鏈表/z/。對于上述鏈表,單詞鏈表“IS”在塊0中的起始節(jié)點比音素鏈表/z/的起始節(jié)點更早,因此α位于單詞鏈表“IS”的起始節(jié)點。同樣,塊1的α位于單詞鏈表“WINTER”的起始節(jié)點。對于網(wǎng)格的最后一個數(shù)據(jù)塊而言,此時為塊2,本質(zhì)上不存在延伸到其他數(shù)據(jù)塊的鏈表,所以將α定義為該塊內(nèi)的最后一個節(jié)點。因此可以理解,概念上β代表其前面的節(jié)點對前一數(shù)據(jù)塊有影響的數(shù)據(jù)塊內(nèi)的最新位置點,而α代表其后面的節(jié)點對下一數(shù)據(jù)塊有影響的數(shù)據(jù)塊內(nèi)的最早位置點。
正如熟練技術(shù)人員理解的那樣,可以利用特定節(jié)點的標(biāo)識或時間規(guī)格指定每個α和β。在本實施方式中,利用節(jié)點指定標(biāo)識。可以采用多種不同方式存儲用于指定網(wǎng)格數(shù)據(jù)結(jié)構(gòu)內(nèi)之α和β的數(shù)據(jù)。例如,圖16b所示類型的數(shù)據(jù)成分可以在數(shù)據(jù)流內(nèi)的有關(guān)位置包含標(biāo)志或標(biāo)記。然而,在本實施方式中,通過在網(wǎng)格數(shù)據(jù)結(jié)構(gòu)之標(biāo)題部分的查找表中存儲各個節(jié)點的標(biāo)識,指定所有位置點。
首先,在插入新節(jié)點時,每個數(shù)據(jù)塊的α和β的規(guī)格對分析網(wǎng)格中先前節(jié)點的節(jié)點偏移量具有某些優(yōu)點。特別地,當(dāng)在給定數(shù)據(jù)塊中的β位置后插入新節(jié)點時,只需分析給定數(shù)據(jù)塊中前面的節(jié)點,無需分析給定數(shù)據(jù)塊之前一數(shù)據(jù)塊中的節(jié)點。其原因在于,由于新插入的節(jié)點位于給定數(shù)據(jù)塊內(nèi)的β位置后,所以根據(jù)定義不存在從前一數(shù)據(jù)塊延伸到新插入節(jié)點之后的鏈表,因為β的位置定義前一數(shù)據(jù)塊中的鏈表延伸到的最大程度。因此,無需搜索分析前一數(shù)據(jù)塊中的節(jié)點,當(dāng)數(shù)據(jù)塊的平均長度增加時,上述處理非常有利。作為選擇,如果將新節(jié)點插入到給定數(shù)據(jù)塊之β位置前的給定數(shù)據(jù)塊中,則必須考慮從前一數(shù)據(jù)塊發(fā)起的鏈表,但只需考慮前一數(shù)據(jù)塊中位于α位置或位于α位置之后的節(jié)點。這是因為根據(jù)α的定義,位于前一數(shù)據(jù)塊之α前面的前一數(shù)據(jù)塊中的節(jié)點,均沒有延伸到給定數(shù)據(jù)塊的鏈表。因此,能夠再次減少處理,并且隨著每個數(shù)據(jù)塊的長度的增加,上述減少將非常顯著。此外,給定數(shù)據(jù)塊中α的位置趨向于該數(shù)據(jù)塊的結(jié)尾,所以對長數(shù)據(jù)塊而言,能夠節(jié)省用于分析全部在先數(shù)據(jù)塊所使用的大部分處理資源。
其次,當(dāng)在以下過程中使用α和β重新定義現(xiàn)有網(wǎng)格內(nèi)的數(shù)據(jù)塊,以便在遵循上述標(biāo)準(zhǔn)(即,任何鏈表均不能延伸到一個數(shù)據(jù)塊之外)的情況下提供更小、排列更均勻的數(shù)據(jù)塊時,每個數(shù)據(jù)塊的α和β的規(guī)格具有某些優(yōu)點。在上述過程中,根據(jù)現(xiàn)有數(shù)據(jù)塊內(nèi)α和β的相對位置,分割現(xiàn)有數(shù)據(jù)塊。在一種方法中,假設(shè)α在給定數(shù)據(jù)塊內(nèi)的β之后,則通過在β和α之間的某個位置分割給定數(shù)據(jù)塊,將其劃分為兩個數(shù)據(jù)塊。同樣,在構(gòu)造網(wǎng)格數(shù)據(jù)結(jié)構(gòu)的優(yōu)選過程中,有利使用規(guī)定β和α的數(shù)據(jù)確定何時將現(xiàn)有數(shù)據(jù)塊分割為更小數(shù)據(jù)塊。
如上所述,在本實施方式中,正如圖16a所示,首先將給定節(jié)點的最長鏈表放置到給定節(jié)點的數(shù)據(jù)成分序列中。這對于將新節(jié)點插入到網(wǎng)格數(shù)據(jù)結(jié)構(gòu)中的過程很有利,其中在該過程中,必須分析先前的節(jié)點,以確定從這些節(jié)點發(fā)起的鏈表是否延伸到新插入的節(jié)點之外。通過總是將從任意給定節(jié)點發(fā)起的最長鏈表,放置在該節(jié)點的數(shù)據(jù)成分序列中的特定位置,此時為該序列內(nèi)的最早位置,如果證實該鏈表并未越過新插入的節(jié)點,則無需分析該節(jié)點之?dāng)?shù)據(jù)成分序列內(nèi)的所有剩余鏈表,因為根據(jù)定義,其跨度小于已經(jīng)分析的最長鏈表的跨度。因此能夠進一步縮短處理時間。
以下參照圖17至19說明生成上述網(wǎng)格數(shù)據(jù)結(jié)構(gòu)的優(yōu)選方法。在優(yōu)選方法中,將組成數(shù)據(jù)組織為數(shù)據(jù)成分集合,并且在構(gòu)造網(wǎng)格結(jié)構(gòu)時,每次將一個數(shù)據(jù)成分集合添加到網(wǎng)格結(jié)構(gòu)中。每個數(shù)據(jù)成分集合包括以下三項之一(i)兩個新節(jié)點以及它們之間的所有鏈表(在向網(wǎng)格添加節(jié)點的情況下,不會將這些節(jié)點連接到網(wǎng)格中已經(jīng)存在的節(jié)點上);或(ii)一個新節(jié)點以及以該節(jié)點作為結(jié)尾的各個鏈表;或(iii)該網(wǎng)格內(nèi)的現(xiàn)有節(jié)點之間的一個鏈表。
圖17是一個流程圖,表示優(yōu)選方法中使用的處理步驟。在圖17所示處理步驟的以下說明中,論證將這些步驟應(yīng)用于圖15b所示的網(wǎng)格的構(gòu)造,進而說明將該方法應(yīng)用于已按照時間順序?qū)ζ涔?jié)點排序的輸入數(shù)據(jù)時,該方法的運行方式。此后,通過描述將數(shù)據(jù)添加到圖15b所示網(wǎng)格數(shù)據(jù)結(jié)構(gòu)的各種不同方法,描述將附加節(jié)點插入現(xiàn)有的按時間排序的節(jié)點序列時,應(yīng)用處理步驟的方式(構(gòu)造新網(wǎng)格或修改現(xiàn)有網(wǎng)格)。
一般而言,在將每個數(shù)據(jù)成分集合添加到網(wǎng)格中時,更新數(shù)據(jù)塊的各種終點,α和β。當(dāng)數(shù)據(jù)塊中的節(jié)點數(shù)到達臨界值時,在本例中為9,分析α和β的位置,并且如果合適,則將該數(shù)據(jù)塊分割為兩小塊。再次更新各種各樣的α和β,并且在添加附加數(shù)據(jù)成分后,按相同方式繼續(xù)進行處理。
以下詳細說明圖17展示的處理步驟。同時參照圖18a至18h,該圖表示圖15b所示圖解表現(xiàn)形式的網(wǎng)格結(jié)構(gòu)的構(gòu)造。另外參照圖19a至19h,該圖表示用于定義與圖16所示形式相對應(yīng)的網(wǎng)格的數(shù)據(jù)流的構(gòu)造。
參照圖17,在步驟S61中,自動語音識別單元33定義第一塊(即,塊0)的開始。在圖18a中,利用參考號數(shù)202表示用于定義第一塊的開始的塊標(biāo)記。其實現(xiàn)方式是,在數(shù)據(jù)流中插入組成塊標(biāo)志的數(shù)據(jù)成分244(見圖19a)。
在步驟S63中,自動語音識別單元33將漸增計數(shù)器設(shè)置為1。
在步驟S65中,自動語音識別單元33將第一個數(shù)據(jù)成分集合插入到定義網(wǎng)格數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)流中。更確切地說,自動語音識別單元33收集與網(wǎng)格的前兩個數(shù)據(jù)相對應(yīng)的數(shù)據(jù),以及它們之間的音素鏈表(此時為音素鏈表/n/和/m/)。然后,另外收集字譯碼器37辨別的所有單詞,作為與以上兩個節(jié)點之間的鏈表關(guān)聯(lián)的單詞,盡管對于前兩個節(jié)點,不存在此類單詞。接著,將相應(yīng)數(shù)據(jù)成分插入到數(shù)據(jù)流中。特別地,再次參照圖19a,插入用于定義網(wǎng)格結(jié)構(gòu)之第一節(jié)點的數(shù)據(jù)260,數(shù)據(jù)260由組成節(jié)點標(biāo)志的數(shù)據(jù)成分以及指示節(jié)點時間的數(shù)據(jù)成分組成。此后,插入數(shù)據(jù)262,該數(shù)據(jù)包括組成音素鏈表/n/的數(shù)據(jù)成分和節(jié)點偏移值001,然后插入數(shù)據(jù)264,該數(shù)據(jù)包括組成音素鏈表/m/的數(shù)據(jù)成分和節(jié)點偏移值001。最后,插入數(shù)據(jù)266,該數(shù)據(jù)包括組成節(jié)點標(biāo)志的數(shù)據(jù)成分以及組成第二節(jié)點之時間的數(shù)據(jù)成分。從而插入第一數(shù)據(jù)成分集合的全部組成部分260、262、264和266。同時可以在圖18a中看到前兩個節(jié)點以及它們之間的音素鏈表/n/和/m/。在步驟S67中,自動語音識別單元33判斷新插入的數(shù)據(jù)成分集合中是否包括新節(jié)點。此時答案為“是”,因此處理轉(zhuǎn)到步驟S69,在步驟S69中,自動語音識別單元判斷新節(jié)點是否位于當(dāng)前網(wǎng)格結(jié)構(gòu)的結(jié)尾。此時答案為“是”。事實上,當(dāng)利用圖17的流程圖中所示的方法,構(gòu)造按時間順序?qū)ζ鋽?shù)據(jù)進行排序的數(shù)據(jù)網(wǎng)格時,在目前情況下,判斷步驟S67和S69的答案總是肯定的。流程圖包含上述判斷步驟的目的,僅僅是為了說明該處理能夠?qū)⒏郊庸?jié)點或鏈表插入到網(wǎng)格中,如果需要的話(稍后給出此種情況的示例)。
此時,處理轉(zhuǎn)到步驟S71,在步驟S71中,自動語音識別單元33定義最后一個數(shù)據(jù)塊的結(jié)尾為位于網(wǎng)格結(jié)尾的新插入的節(jié)點的后面。在此處理階段中,只有一個數(shù)據(jù)塊,因此在定義最后一個數(shù)據(jù)塊的結(jié)尾時,事實上已經(jīng)定義了單一數(shù)據(jù)塊的結(jié)尾。在圖18a中,將新定義的數(shù)據(jù)塊的現(xiàn)行結(jié)尾表示為項目203,并且正如圖19a所示,在數(shù)據(jù)流中表示為由塊標(biāo)志組成的數(shù)據(jù)成分245。
接著,自動語音識別單元33確定全部α和β位置點。此時,只有一個數(shù)據(jù)塊,因此確定只有一個α和一個β。上文描述了用于確定第一數(shù)據(jù)塊中之α和β的過程。圖18a表示由此得出的位置。正如上文所述,關(guān)于數(shù)據(jù)流,將α和β位置輸入到標(biāo)題數(shù)據(jù)中。
在步驟S79中,自動語音識別單元33判斷是否有“無效”的α和β值,意指或者其α和β值不確定,或者α和β所處位置違反上文描述的標(biāo)準(zhǔn),即,任何鏈表均不能延伸到相鄰數(shù)據(jù)塊之外。此時,在構(gòu)造網(wǎng)格時,上述判定步驟判定不存在無效值,因此處理轉(zhuǎn)到步驟S81。在步驟S81中,自動語音識別單元判斷剛剛在其內(nèi)部插入節(jié)點的數(shù)據(jù)塊內(nèi)的節(jié)點數(shù)是否達到或超過預(yù)定臨界值。設(shè)置預(yù)定臨界值的目的在于,為提供更小數(shù)據(jù)塊長度或更均勻的數(shù)據(jù)塊間隔而分析或修改數(shù)據(jù)塊結(jié)構(gòu)前,該數(shù)據(jù)塊中必須具有的最少節(jié)點數(shù)。在執(zhí)行數(shù)據(jù)塊分割,數(shù)據(jù)存儲數(shù)據(jù)塊標(biāo)志數(shù)據(jù)時,就需要的資源而言,還有間接成本。因此,對節(jié)點數(shù)小于臨界值的數(shù)據(jù)塊進行數(shù)據(jù)塊分割將影響效率(counter productive)。臨界值的選擇取決于正在考慮的網(wǎng)格或數(shù)據(jù)文件的特定特征。如上所述,在本實施方式中,將該值設(shè)置為9。因此,在此處理階段中,由于總共只插入了兩個節(jié)點,所以判斷步驟S81的答案為“否”。
對于需要插入的第一個數(shù)據(jù)成分集合而言,完成上述處理步驟,圖18a和19a表示網(wǎng)格和數(shù)據(jù)流的現(xiàn)行形式。
接著,該過程轉(zhuǎn)到步驟S89,在該步驟中,自動語音識別單元判斷還有需要添加的數(shù)據(jù)成分集合,因此在步驟S91中,將n的值加1,然后對下一個數(shù)據(jù)成分集合,重復(fù)從步驟S65開始的處理步驟。此時,下一個數(shù)據(jù)成分集合包括用于規(guī)定網(wǎng)格之第三節(jié)點及其時間(0.41秒)的數(shù)據(jù)(圖19b中的項目270)和用于規(guī)定音素鏈表/oh/及其節(jié)點偏移量(001)的數(shù)據(jù)。圖18b表示插入音素鏈表/oh/和第三節(jié)點后的情況。在步驟S71中,按圖18b所示方式放置該數(shù)據(jù)塊的結(jié)尾203,將結(jié)尾203定義為位于最后一個節(jié)點之后,在數(shù)據(jù)流中,利用由塊標(biāo)志組成的數(shù)據(jù)成分245實現(xiàn)上述處理,并將其放置在新插入的數(shù)據(jù)268和270的后面。在圖18b中表示步驟S75確定的位于新的端節(jié)點的α的新位置。在步驟S79中,再次確定不存在無效α或β,并且由于節(jié)點數(shù)僅僅為3(即,小于9),所以最新的數(shù)據(jù)成分集合的處理完成,圖18b和圖19b表示當(dāng)前的網(wǎng)格和數(shù)據(jù)流。
隨著過程繼續(xù),插入代表下一個數(shù)據(jù)成分集合的第四節(jié)點以及在該節(jié)點結(jié)束的兩個鏈表,即,音素鏈表/w/和單詞鏈表“NOW”。正如對上一個數(shù)據(jù)成分集合描述的那樣,執(zhí)行從步驟S65開始的處理步驟,由此得到圖18c所示的網(wǎng)格結(jié)構(gòu)和圖19c所示的數(shù)據(jù)流。在圖19c中可以看出,與音素鏈表/w/對應(yīng)的數(shù)據(jù)272以及與最新節(jié)點對應(yīng)的數(shù)據(jù)274,恰好在位于數(shù)據(jù)流結(jié)尾的最后一個塊標(biāo)志的前面,把與單詞鏈表“NOW”對應(yīng)的數(shù)據(jù)276放置在該鏈表之發(fā)起節(jié)點(即,第一節(jié)點)的數(shù)據(jù)流中。此外,并將其放置在從第一節(jié)點發(fā)起的其他鏈表(即,音素鏈表/n/和/m/)的前面,因為音素鏈表的節(jié)點偏移量為001,小于單詞鏈表“NOW”的節(jié)點偏移量003。
該過程按上述方式繼續(xù)而無需任何更改,以插入第五、第六、第七和第八節(jié)點,從而分別提供圖18d和圖19d所示的網(wǎng)格結(jié)構(gòu)和數(shù)據(jù)流。
在從步驟S65開始的該過程的下一個循環(huán)中,插入的數(shù)據(jù)成分集合為第九節(jié)點以及在該節(jié)點結(jié)束的音素鏈表/w/。在按上述方式執(zhí)行步驟S67、S69、S71和S75之后,網(wǎng)格排列如圖18e-1所示,數(shù)據(jù)塊的結(jié)尾203位于新插入的第九節(jié)點后,α位于第九節(jié)點。在步驟S79中,自動語音識別單元判斷不存在的無效的α和β值,因此處理轉(zhuǎn)到步驟S81。到該步驟為止的過程與前一個數(shù)據(jù)成分集合的過程相同。然而,由于此時新插入的節(jié)點使得單一數(shù)據(jù)塊中的節(jié)點總數(shù)變?yōu)?,所以當(dāng)自動語音識別單元執(zhí)行判斷步驟S81時,首次確定該數(shù)據(jù)塊中的節(jié)點數(shù)大于等于9。因此,此時該過程轉(zhuǎn)到步驟S83,在步驟S83中,自動語音識別單元判斷α是否大于β,即,在該數(shù)據(jù)塊中α是否在β的后面。本例正是此種情況(事實上,對網(wǎng)格的第一數(shù)據(jù)塊而言,總是如此,因為β是為第一網(wǎng)格定義的)。
可以理解,本方法的基本步驟是,當(dāng)數(shù)據(jù)塊中的節(jié)點數(shù)到達9時,將該數(shù)據(jù)塊劃分為兩個數(shù)據(jù)塊,其前提是α大于β。等待到達某個節(jié)點數(shù)的原因在于,上文說明的資源的間接成本。α大于β這一標(biāo)準(zhǔn)的原因在于,確保通過分割原始數(shù)據(jù)塊形成的兩個數(shù)據(jù)塊均服從上文說明的標(biāo)準(zhǔn),不允許任何鏈表延伸到相鄰數(shù)據(jù)塊之外的其他數(shù)據(jù)塊。
因此,此時該過程轉(zhuǎn)到步驟S85,在步驟S85中,自動語音識別單元將圖18e-1的單一數(shù)據(jù)塊,分割為兩個數(shù)據(jù)塊。其實現(xiàn)方式是定義新的數(shù)據(jù)塊結(jié)尾205,根據(jù)任意所需標(biāo)準(zhǔn)確定其位置,其中標(biāo)準(zhǔn)規(guī)定β和α之間的某個位置。在本實施方式中,標(biāo)準(zhǔn)為在β和α之間的中間位置(根據(jù)節(jié)點數(shù),如果需要的話則進行上舍入)插入新的數(shù)據(jù)塊結(jié)尾。因此,正如圖18e-2所示,通過在第五節(jié)點后插入一個新的數(shù)據(jù)塊結(jié)尾205,分割該數(shù)據(jù)塊。正如圖19e所示,通過在數(shù)據(jù)流中插入由塊標(biāo)志組成的數(shù)據(jù)成分298,實現(xiàn)上述處理。另外,自動語音識別單元33按照與該數(shù)據(jù)塊的開始時間的偏移量,重新計算新生成的第二數(shù)據(jù)塊內(nèi)所有節(jié)點的時間,其中開始時間為整個網(wǎng)格的第五節(jié)點的時間(0.71秒)。因此,由此得到的圖19e所示的數(shù)據(jù)流包含新插入的數(shù)據(jù)成分298,與音素鏈表/w/有關(guān)的新插入的數(shù)據(jù)300,以及與端節(jié)點有關(guān)的新插入的數(shù)據(jù)302。此外,將數(shù)據(jù)成分304、306、308和310的時間值變?yōu)樾碌钠屏俊?br> 在步驟S87中,利用自動語音識別單元確定α和β更新值。由于現(xiàn)在有兩個數(shù)據(jù)塊,所以需要確定兩個β和兩個α。圖18e-2表示α和β的新位置。
此后,按上述方式繼續(xù)圖17的過程,以便插入整個網(wǎng)格的第十至第十三節(jié)點,并且塊1中的節(jié)點數(shù)小于臨界值9。從而分別提供圖18f和圖19f所示的網(wǎng)格結(jié)構(gòu)和數(shù)據(jù)流。
插入的下一個數(shù)據(jù)成分集合包括第十四節(jié)點以及在該節(jié)點結(jié)束的音素鏈表/oh/。圖18g-1表示對該數(shù)據(jù)成分集合執(zhí)行步驟S65至S79之后的情況。插入最新的數(shù)據(jù)成分集合使得第二數(shù)據(jù)塊中的節(jié)點數(shù)變?yōu)?,并且α在β的后面。因此,自動語音識別單元33執(zhí)行步驟S85,在步驟S85中,在需要分割的數(shù)據(jù)塊的第五節(jié)點后,插入新的數(shù)據(jù)塊結(jié)尾207,如圖18g-2所示。正如圖19g所示,通過在數(shù)據(jù)流中插入由新塊標(biāo)志組成的數(shù)據(jù)成分330,實現(xiàn)上述處理。同時,自動語音識別單元33計算新生成的第三數(shù)據(jù)塊中所有節(jié)點的調(diào)整偏移時間(圖19g中的334、336、338、340)。此后,在步驟S87中,自動語音識別單元確定α和β的更新值,以便提供用于第二數(shù)據(jù)塊的新的α值和用于第三數(shù)據(jù)塊的新的β值,圖18g-2表示以上兩種情況。
對需要添加的3個剩余數(shù)據(jù)成分集合,重復(fù)圖17所示的過程,從而提供圖18h和圖19h所示的網(wǎng)格結(jié)構(gòu)和數(shù)據(jù)流。
此時,在步驟S89中,自動語音識別單元33確定已經(jīng)不存在需要插入的數(shù)據(jù)成分集合,因此,完成現(xiàn)行網(wǎng)格數(shù)據(jù)結(jié)構(gòu),并與圖15b和16b所示的網(wǎng)格相對應(yīng)。
以下利用實例論證由于后面插入延伸到相鄰數(shù)據(jù)塊的長鏈表引起的兩個數(shù)據(jù)塊的合并處理。以上實例中不會出現(xiàn)此種情況,原因在于數(shù)據(jù)是完全按照時間順序添加到網(wǎng)格中的。相反,在以下實例中,在圖15b的網(wǎng)格到達此步驟后,需要在現(xiàn)有節(jié)點之間插入附加鏈表。發(fā)生此種情況的原因有許多。一種可能性是,網(wǎng)格是在早期完成的,然后作為注釋數(shù)據(jù),但后來需要修改。另一種可能性是,首先處理所有音素數(shù)據(jù),然后處理所有單詞數(shù)據(jù),或相反。還有另一種可能性是,為提供單一網(wǎng)格而單獨添加不同聲道(即,不同發(fā)言人)的數(shù)據(jù)。
然而,在本例中,插入早期的計時鏈表本質(zhì)上是最初進行的網(wǎng)格構(gòu)造的一部分,盡管需要在結(jié)尾單獨處理組成附加鏈表的數(shù)據(jù)成分,因為當(dāng)音素數(shù)據(jù)通過第二語音識別詞匯表時,構(gòu)成自動語音識別單元33識別的單詞。在本例中,第二詞匯表包括用戶選擇的專有名稱地點詞匯表。因此,在本例中,在步驟S89中,確定需要插入另一個數(shù)據(jù)成分集合,然后在步驟S91中將n的值加1,在步驟S65中插入該數(shù)據(jù)。該數(shù)據(jù)組成單詞鏈表“ESTONIA”,并且從塊0的第四節(jié)點延伸到塊2的第三節(jié)點,如圖20a所示。
在步驟S67中,自動語音識別單元33識別未插入新節(jié)點,因此,處理轉(zhuǎn)到步驟S75,在步驟S75中,確定α和β的更新位置。然而,由于新插入的鏈表從塊0開始,向右經(jīng)過塊1,延伸到塊2結(jié)束,所以違反了上文描述的禁止鏈表延伸到相鄰數(shù)據(jù)塊之外的標(biāo)準(zhǔn),并且不能生成塊1的有效α和β。在圖20a中表示為,塊1的α事實上需要在塊0中出現(xiàn),塊1的β需要在塊2中出現(xiàn)。因此,在下一步驟S79中,確定α和β無效。
因此該過程轉(zhuǎn)到步驟S77,步驟S77包括合并數(shù)據(jù)塊??梢允褂萌魏魏线m的標(biāo)準(zhǔn)來選擇需要合并的數(shù)據(jù)塊,例如,該標(biāo)準(zhǔn)可以基于提供間隔最均勻的數(shù)據(jù)塊,或者合并違反(標(biāo)準(zhǔn)的)數(shù)據(jù)塊與前一個數(shù)據(jù)塊。然而,在本例中,總是選擇合并違反(標(biāo)準(zhǔn)的)數(shù)據(jù)塊與前一個數(shù)據(jù)塊,亦即,在本例中,將合并塊1和塊2。其實現(xiàn)方式是,去除劃分塊1和塊2的塊標(biāo)記,從而只剩下兩個數(shù)據(jù)塊,如圖20b所示。然后,該過程返回到步驟S75,在步驟S75中,再次判斷α和β。圖20b表示由此得到的α和β的位置。
在步驟S79中,自動語音識別單元33判定α和β有效,因此過程轉(zhuǎn)到步驟S81。在本例中,由于塊1中有12個節(jié)點并且α大于β,所以該過程轉(zhuǎn)到步驟S85,并且使用與上述過程相同的過程,分割塊1。然而,上文使用的、規(guī)定新數(shù)據(jù)塊分割位置(即,β和α之間的節(jié)點數(shù)之一半的位置)標(biāo)準(zhǔn),在本例中包含改進,當(dāng)需要分割的數(shù)據(jù)塊的節(jié)點數(shù)大于9時,分割處理應(yīng)使得兩個分割塊中較早獲得的數(shù)據(jù)塊中的節(jié)點數(shù)小于等于8。以避免數(shù)據(jù)塊分割處理的低效重復(fù)。因此,在本例中,將新的塊標(biāo)記插入到正在分割的數(shù)據(jù)塊的第八節(jié)點后,如圖20c所示。在步驟S87中,再次判斷α和β,圖20c表示新位置。請注意,α和β位于塊1中的同一節(jié)點。在本例中,在步驟S89中,判定不存在需要添加的其他數(shù)據(jù)成分集合,因此,該過程結(jié)束。
在參照圖20a至20c說明的上述過程中,通過按照與上文實例相對應(yīng)的方式更改圖16b的數(shù)據(jù)流,實現(xiàn)網(wǎng)格的更改。特別地,通過去除包含劃分原始塊1和2之原始塊標(biāo)志的有關(guān)數(shù)據(jù)成分248,實現(xiàn)用于合并兩個數(shù)據(jù)塊的步驟S77。
以下參照圖21a至21d說明根據(jù)圖17之流程圖展示的過程處理數(shù)據(jù)的另一個實例。在本例中,在將第七節(jié)點添加到圖15c的網(wǎng)格后,添加附加數(shù)據(jù)成分。因此,圖17的步驟S89中,需要添加其他成分,然后該過程經(jīng)由增加步驟S91再次返回到插入步驟S65。然而,添加以下實例中之附加數(shù)據(jù)成分所使用的方法步驟,構(gòu)成一種更新或修改任意適合的原始網(wǎng)格的獨立方法,而不考慮原始網(wǎng)格本身是如何生成的。
在以下實例中,通過與圖9所示鍵盤3和語音轉(zhuǎn)錄單元75之形式相同的鍵盤和語音轉(zhuǎn)錄單元,添加附加數(shù)據(jù)。在本例中,將語音轉(zhuǎn)錄單元的輸出連接到自動語音識別單元33。用戶利用該裝置輸入與視頻數(shù)據(jù)31-1之特定部分相對應(yīng)的注釋數(shù)據(jù)。在業(yè)界中有時將此類數(shù)據(jù)稱為“元數(shù)據(jù)”。例如,視頻數(shù)據(jù)的特定部分可以表示某個演員的許多特寫,其中用戶希望在以后需要時能夠利用注釋數(shù)據(jù)進行定位/檢索。因此,用戶輸入單詞“PROFILE A B C D E”,并且規(guī)定只轉(zhuǎn)錄單詞鏈表,而不轉(zhuǎn)錄音素鏈表。從而提供以下數(shù)據(jù)成分(i)第一個新節(jié)點,第二個新節(jié)點,以及它們之間的單詞鏈表“PROFILE”;(ii)第三個新接點,以及第二個新節(jié)點和第三個新節(jié)點之間的單詞鏈表“A”;(iii)第四個新接點,以及第三個新節(jié)點和第四個新節(jié)點之間的單詞鏈表“B”;(iv)第五個新接點,以及第四個新節(jié)點和第五個新節(jié)點之間的單詞鏈表“C”;(v)第六個新接點,以及第五個新節(jié)點和第六個新節(jié)點之間的單詞鏈表“D”;以及(vi)第七個新接點,以及第六個新節(jié)點和第七個新節(jié)點之間的單詞鏈表“E”。
再次參照圖17,在步驟S65中,由自動語音識別單元33將上述數(shù)據(jù)成分(i)插入到圖15b之網(wǎng)格中圖21a所示的位置。在步驟S67中,自動語音識別單元33判定插入了新節(jié)點。在步驟S69中,自動語音識別單元判定既未在網(wǎng)格的開始也未在網(wǎng)格的結(jié)尾插入新節(jié)點。換句話說,新節(jié)點被插入到現(xiàn)有網(wǎng)格內(nèi),因此可能需要調(diào)整該網(wǎng)格中一個或幾個現(xiàn)有節(jié)點的節(jié)點偏移量。所以該過程轉(zhuǎn)到步驟S73,在步驟S73中,自動語音識別單元33調(diào)整現(xiàn)有節(jié)點的節(jié)點偏移量。在步驟S73中,可以采用調(diào)整偏移量的任何合適方法。在本例中采用優(yōu)選方法,稍后參照圖22的流程圖說明該方法。
在調(diào)整偏移量之后,按照較早實例采用的方式,執(zhí)行圖17的過程,然后返回到步驟S65,以便插入數(shù)據(jù)成分(ii)。然后對數(shù)據(jù)成分(ii)和(iii)重復(fù)關(guān)于數(shù)據(jù)成分(i)的上述過程。圖21b表示插入數(shù)據(jù)成分(i)、(ii)、(iii)之后并且該過程到達步驟S81時的情況。此時,在插入附加數(shù)據(jù)成分時,第一次判定第二數(shù)據(jù)塊中的節(jié)點數(shù)等于9。因此,在步驟S83中,自動語音識別單元33分割該數(shù)據(jù)塊,然后在步驟S87中,確定新的α和β,從而得到圖21c所示的新的塊結(jié)構(gòu)。請注意,確定新數(shù)據(jù)塊之結(jié)尾的標(biāo)準(zhǔn)為,使得新生成的第二數(shù)據(jù)塊的長度盡量長一些,但不允許將數(shù)據(jù)塊的結(jié)尾放置在α。
然后按相同方式繼續(xù)該過程,插入數(shù)據(jù)成分(iv)、(v)、(vi),一直到處理數(shù)據(jù)成分(vi)時的步驟S81。此時,網(wǎng)格具有圖21d所示形式,即,塊2中有9個節(jié)點,步驟S81的結(jié)果為該過程再次轉(zhuǎn)到步驟S83。請注意,本例使得塊2中的β位于α的后面,換句話說,延伸到塊2中的最長鏈表超過離開塊2的最早鏈表的開始位置,正如在圖21d中看到的那樣。如果在此種情況下分割塊2,形成的新數(shù)據(jù)塊將違反本實施方式的基本標(biāo)準(zhǔn),即,任何鏈表均不能延伸到相鄰數(shù)據(jù)塊之外的其他數(shù)據(jù)塊。鑒于上述情況,圖17的方法不允許分割塊2,即使該塊有9個節(jié)點,并利用以下方式實現(xiàn)上述處理,判斷步驟S83的結(jié)果為α不大于β,從而該過程直接轉(zhuǎn)到步驟S89。在本例中,在步驟S89中確定不存在需要添加的其他數(shù)據(jù)成分集合,因此該過程結(jié)束。
以下參照圖22的流程圖,說明實現(xiàn)步驟S73之偏移量調(diào)整的上述優(yōu)選過程,圖22表示用于新插入節(jié)點的過程。優(yōu)選方法使用以下事實,即,各塊中的α和β位置是已知的。自動語音識別單元33分析新插入節(jié)點之前的節(jié)點,以確定從這些節(jié)點發(fā)起的延伸到新插入節(jié)點的位置之外的所有鏈表。若發(fā)現(xiàn)此類節(jié)點,則需要將受影響的鏈表的節(jié)點偏移值加1,以適應(yīng)以下事實,新插入的節(jié)點在其范圍內(nèi)。如果新插入的節(jié)點在給定數(shù)據(jù)塊內(nèi)的β的后面,則只需分析新插入節(jié)點之前以及給定數(shù)據(jù)塊內(nèi)的節(jié)點,因為本質(zhì)上不存在從前一數(shù)據(jù)塊延伸到β之外的鏈表。作為選擇,如果新插入的節(jié)點位于給定數(shù)據(jù)塊內(nèi)的β的前面,則需要分析給定數(shù)據(jù)塊中新插入節(jié)點之前的節(jié)點以及前一數(shù)據(jù)塊中的節(jié)點,但只包括與α相對應(yīng)節(jié)點之后的節(jié)點。無需分析前一數(shù)據(jù)塊中α之前的節(jié)點,因為本質(zhì)上不存在從α之前的節(jié)點發(fā)起的、延伸到插入新節(jié)點的數(shù)據(jù)塊的鏈表。
利用圖22所示的處理步驟實現(xiàn)上述過程。在步驟S010中,自動語音識別單元33將漸增計數(shù)器i的值設(shè)置為1。利用漸增計數(shù)器控制對連續(xù)不斷的早期節(jié)點逐一重復(fù)應(yīng)用該過程。在步驟S103中,確定位于插入節(jié)點前一個位置的節(jié)點。參照圖21a,對于發(fā)起單詞鏈表“PROFILE”的新插入節(jié)點,位于其前一個位置的節(jié)點為發(fā)起單詞鏈表“THE”的節(jié)點。在步驟S105中,確定從確定節(jié)點發(fā)起的所有鏈表為單詞鏈表“THE”和音素鏈表/dh/。自動語音識別單元33確定上述鏈表的節(jié)點偏移值,單詞鏈表“THE”的偏移值為002,音素鏈表/dh/的偏移值為001,因此在步驟S107中,將其節(jié)點偏移值加1,分別變?yōu)樾轮?03和002。在步驟S109中,判斷新插入的節(jié)點是否在β的前面。此時位于β的后面,因此,只需要向后分析到本塊的第一節(jié)點,并且在步驟S111中,判斷當(dāng)前確定的節(jié)點,即,其節(jié)點偏移值改變的節(jié)點,是否為本塊的第一節(jié)點。此時,答案為“是”,并且由于無需調(diào)整其他節(jié)點的偏移值,所以該過程結(jié)束。然而,如果本塊中還有需要處理的節(jié)點,則該過程繼續(xù)到步驟S113,在該步驟中,將i的值加1,然后從步驟S103開始對下一個早期節(jié)點重復(fù)該過程。在以上實例中,如果新插入的節(jié)點位于β的前面,則該過程繼續(xù)直至處理了前一塊中與α對應(yīng)的節(jié)點前的每個節(jié)點。為了實現(xiàn)上述處理,當(dāng)插入節(jié)點位于β的前面時,該過程轉(zhuǎn)到步驟S115,在該步驟中,自動語音識別單元判斷確定節(jié)點是否位于前一塊的α位置。若是,則過程結(jié)束。否則,該過程轉(zhuǎn)到步驟S117,在步驟S117中,將i的值加1,然后從步驟S103開始重復(fù)該過程。
以下說明分割數(shù)據(jù)塊的另一種方式。當(dāng)給定數(shù)據(jù)塊中的節(jié)點數(shù)到達臨界值,并且α位于給定數(shù)據(jù)塊中的β的后面時,調(diào)整給定數(shù)據(jù)塊和前一個數(shù)據(jù)塊,以便生成三個新數(shù)據(jù)塊,從而代替兩個數(shù)據(jù)塊。以下參照圖23a和23b詳細說明該過程。
圖23a表示某個網(wǎng)格內(nèi)的節(jié)點序列,利用音素鏈表(如音素鏈表412)、單詞鏈表414的尾部以及另一個單詞鏈表416鏈接該網(wǎng)格。利用塊標(biāo)記402、404和406將以上節(jié)點劃分為數(shù)據(jù)塊,塊標(biāo)記構(gòu)成網(wǎng)格的塊n和(n+1)。該圖分別表示塊n和塊(n+1)的α和β的位置。圖23a表示插入代表音素鏈表413以及該鏈表之間之兩個節(jié)點的數(shù)據(jù)后的網(wǎng)格狀態(tài)?,F(xiàn)在塊(n+1)中的節(jié)點數(shù)為9,并且由于α在β的后面,所以需要重新調(diào)整該數(shù)據(jù)塊。正如圖23b所示,利用三個數(shù)據(jù)塊,即,塊n、塊(n+1)和塊(n+2),代替圖23a中的兩個數(shù)據(jù)塊。其實現(xiàn)方式為,刪除塊分割符404,替換為兩個新的塊分割符408和410,分別位于塊n中的β的后面和塊(n+1)中的β的后面。此后,重新計算每塊的α和β,圖23b表示其新位置。重新調(diào)整數(shù)據(jù)塊的過程提供間隔非常均勻的數(shù)據(jù)塊。當(dāng)給定數(shù)據(jù)塊具有所需分割節(jié)點數(shù)并且其α在β的后面,而前一個數(shù)據(jù)塊中的β在α的后面時,尤其如此。請注意,圖23a正是此種情況。因此在優(yōu)選實施方式中,當(dāng)前一個數(shù)據(jù)塊中的β在α的后面時,利用在兩個β之間生成一個新數(shù)據(jù)塊的過程,實現(xiàn)數(shù)據(jù)塊分割,而當(dāng)前一個數(shù)據(jù)塊中的β在α的前面時,數(shù)據(jù)塊分割遵循最初說明的劃分過程,即,劃分α和β之間的數(shù)據(jù)塊。
在上一段說明的實施方式的另一種方案中,可以將兩個新的塊分割符分別放置在更接近(與每個數(shù)據(jù)塊中的節(jié)點數(shù)相比)塊n中的β和塊(n+1)中的β位置,而不是位于兩個β位置。
在上述實施方式中,在數(shù)據(jù)塊中排列節(jié)點前,相對于公用零時提供網(wǎng)格中每個節(jié)點的定時,從而第一節(jié)點在0.10秒時出現(xiàn)。將第一塊的開始時間設(shè)置為公用零時。其他各塊的開始時間為前一塊的最后一個節(jié)點的時間。然而,在備擇實施方式中,可以按絕對形式提供每個節(jié)點的定時,并且為劃分每個數(shù)據(jù)塊之開始的塊標(biāo)記提供世界標(biāo)準(zhǔn)時(UST)時戳,與下舍入到秒的數(shù)據(jù)塊的第一節(jié)點的絕對時間相對應(yīng)。利用4字節(jié)整數(shù)實現(xiàn)UST時戳,4字節(jié)整數(shù)能夠表示從1970年1月1日以來的秒數(shù)。然后,相對于該數(shù)據(jù)塊之開始的下舍入時間,確定并存儲每個數(shù)據(jù)塊中的節(jié)點的時間,作為偏移時間。在本實施方式中,由于將每個塊的時間下舍入到秒,因此如果允許數(shù)據(jù)塊持續(xù)時間小于1秒,則有可能為兩個或多個數(shù)據(jù)塊分配相同時戳。因此,當(dāng)使用UST時戳?xí)r,不允許數(shù)據(jù)塊持續(xù)時間小于1秒。其實現(xiàn)方式是,規(guī)定預(yù)定的數(shù)據(jù)塊持續(xù)時間,如1秒,在分割當(dāng)前數(shù)據(jù)塊之前必須超過持續(xù)時間。除早先敘述的要求(在分割當(dāng)前數(shù)據(jù)塊之前,當(dāng)前數(shù)據(jù)塊包含的節(jié)點數(shù)必須大于預(yù)定值)之外,該要求也起作用。作為選擇,也可以適應(yīng)比較短的數(shù)據(jù)塊持續(xù)時間,其實現(xiàn)方法為,采用除UST之外的時戳約定,然后以比允許的最小持續(xù)時間更精確的方式,下舍入塊標(biāo)記時間。
在上述實施方式中,利用配備有必需功能性的自動語音識別單元33,確定并生成音素和字格結(jié)構(gòu)。正如熟練技術(shù)人員理解的那樣,可以使用標(biāo)準(zhǔn)自動語音識別單元連同單獨的網(wǎng)格構(gòu)造單元,后者包括用于確定并生成上述音素和字格結(jié)構(gòu)的功能性。圖24表示采用標(biāo)準(zhǔn)自動語音識別單元40的實施方式,其中單元40輸出音素序列。正如圖3所表示裝置那樣,字譯碼器37辨別來自音素數(shù)據(jù)35的單詞。在圖24所示的實施方式中,將辨別的單詞添加到音素數(shù)據(jù)中,以生成音素和單詞數(shù)據(jù)42。然后將其傳送到網(wǎng)格構(gòu)造單元44,該單元確定并生成上述音素和字格結(jié)構(gòu),從而形成音素和單詞注釋數(shù)據(jù)31-3。在包含只輸出單詞的標(biāo)準(zhǔn)自動語音識別單元的其他實施方式中,利用單詞音素字典生成音素,然后利用網(wǎng)格構(gòu)造單元(未示出)組合單詞和音素,從而形成上述音素和字格結(jié)構(gòu)。
在上述實施方式中,把音素和單詞數(shù)據(jù)與網(wǎng)格的鏈表聯(lián)系起來。正如熟練技術(shù)人員理解的那樣,也可以改為把單詞和/或音素數(shù)據(jù)與節(jié)點聯(lián)系起來。此時,與每個節(jié)點關(guān)聯(lián)的數(shù)據(jù)最好包括與其關(guān)聯(lián)的每個單詞或音素的開始時間和結(jié)束時間。
以上描述了用于將節(jié)點和鏈表的無序列表組織為有序、分塊列表的技術(shù)。并且特別描述了對音素和單詞的無序列表進行排序的技術(shù)。然而,正如熟練技術(shù)人員理解的那樣,可以將該技術(shù)應(yīng)用于其他種類的數(shù)據(jù)網(wǎng)格。例如,可以將該技術(shù)應(yīng)用于只有音素的網(wǎng)格或只有單詞的網(wǎng)格。作為選擇,可以將該技術(shù)應(yīng)用于根據(jù)手寫識別系統(tǒng)生成的網(wǎng)格,其中手寫識別系統(tǒng)經(jīng)過字符識別處理生成可能字符的網(wǎng)格。此時,不能按時間對節(jié)點和鏈表排序,而是按空間排序,從而字符相對于其他字符出現(xiàn)在有序網(wǎng)格中與該字符在頁面上的位置相對應(yīng)的位置。
權(quán)利要求
1.一種定義網(wǎng)格的數(shù)據(jù),包括用于定義該網(wǎng)格內(nèi)的許多有序節(jié)點的數(shù)據(jù);用于定義該網(wǎng)格內(nèi)的許多鏈表的數(shù)據(jù),各鏈表從一個第一節(jié)點延伸到一個第二節(jié)點;以及用于在有序數(shù)據(jù)塊的一個序列內(nèi)排列所有節(jié)點的數(shù)據(jù),從而從任意給定數(shù)據(jù)塊中之節(jié)點發(fā)起的鏈表,不會延伸到該序列后面的預(yù)定塊數(shù)的數(shù)據(jù)塊中的節(jié)點之外。
2.根據(jù)權(quán)利要求1的數(shù)據(jù),其中所述數(shù)據(jù)定義許多按時間排序的節(jié)點,并且其中所述數(shù)據(jù)在按時間排序的數(shù)據(jù)塊序列中排列所有節(jié)點。
3.根據(jù)權(quán)利要求1或2的數(shù)據(jù)還包括用于定義與所述節(jié)點和/或所述鏈表關(guān)聯(lián)的信息項的數(shù)據(jù)。
4.用于定義數(shù)據(jù)庫中使用的音素和/或單詞網(wǎng)格的數(shù)據(jù),該數(shù)據(jù)包括用于定義該網(wǎng)格內(nèi)的許多按時間排序的節(jié)點的數(shù)據(jù);用于定義該網(wǎng)格內(nèi)的許多鏈表的數(shù)據(jù),各鏈表從第一節(jié)點延伸到第二節(jié)點;用于把音素或單詞與至少一個節(jié)點或鏈表聯(lián)系起來的數(shù)據(jù);以及用于在按時間排序的數(shù)據(jù)塊序列內(nèi)排列所有節(jié)點的數(shù)據(jù),從而從任意給定數(shù)據(jù)塊中之節(jié)點發(fā)起的鏈表,不會延伸到該序列后面的預(yù)定塊數(shù)的數(shù)據(jù)塊中的節(jié)點之外。
5.根據(jù)上述權(quán)利要求之任一權(quán)利要求的數(shù)據(jù),其中從任意給定數(shù)據(jù)塊中之節(jié)點發(fā)起的鏈表,不會延伸到下一數(shù)據(jù)塊中的節(jié)點之外。
6.根據(jù)權(quán)利要求5的數(shù)據(jù)還包括用于定義各數(shù)據(jù)塊之第一定時(即,節(jié)點β)的數(shù)據(jù),以標(biāo)識從前一數(shù)據(jù)塊發(fā)起的鏈表延伸到的數(shù)據(jù)塊內(nèi)的最新節(jié)點。
7.根據(jù)權(quán)利要求6的數(shù)據(jù)還包括用于定義各數(shù)據(jù)塊之第二定時(即,節(jié)點α)的數(shù)據(jù),以標(biāo)識延伸到下一數(shù)據(jù)塊的鏈表在發(fā)起數(shù)據(jù)塊內(nèi)的最早節(jié)點。
8.根據(jù)權(quán)利要求7的數(shù)據(jù),其中將各節(jié)點的數(shù)據(jù)及其鏈表排列為數(shù)據(jù)序列,并且按照與所有節(jié)點之時間順序相對應(yīng)的順序,將所述各節(jié)點的數(shù)據(jù)序列一并排列到數(shù)據(jù)流中。
9.根據(jù)上述權(quán)利要求之任一權(quán)利要求的數(shù)據(jù),其中對于具有許多鏈表的節(jié)點而言,依靠相應(yīng)鏈表的寬度,按預(yù)定方式排列每個鏈表的數(shù)據(jù)。
10.根據(jù)取決于權(quán)利要求8的權(quán)利要求9的數(shù)據(jù),其中對于具有許多鏈表的節(jié)點而言,與數(shù)據(jù)序列內(nèi)的眾多鏈表的其他鏈表相比,最長鏈表的數(shù)據(jù)總是處于相同的相對位置。
11.根據(jù)權(quán)利要求10的數(shù)據(jù),其中最長鏈表的數(shù)據(jù)總是位于該數(shù)據(jù)序列內(nèi)的眾多鏈表中的第一位置或最后位置。
12.根據(jù)上述權(quán)利要求之任一權(quán)利要求的數(shù)據(jù),當(dāng)在數(shù)據(jù)庫中使用時,還包括用于定義各數(shù)據(jù)塊在所述數(shù)據(jù)庫內(nèi)的位置的數(shù)據(jù)。
13.根據(jù)上述權(quán)利要求之任一權(quán)利要求的數(shù)據(jù)還包括用于定義所述節(jié)點之每個節(jié)點的時戳信息的數(shù)據(jù)。
14.根據(jù)權(quán)利要求4的數(shù)據(jù)還包括用于定義所述節(jié)點之每個節(jié)點的時戳信息的數(shù)據(jù),其中把定義音素和字格的所述數(shù)據(jù)與定義時序信號的其他數(shù)據(jù)聯(lián)系起來,并且所述時戳信息與所述時序信號同步。
15.根據(jù)權(quán)利要求14的數(shù)據(jù),其中所述其他數(shù)據(jù)定義音頻和/或視頻信號。
16.根據(jù)權(quán)利要求15的數(shù)據(jù),其中所述其他數(shù)據(jù)定義至少語音數(shù)據(jù),并且定義所述音素和字格的所述數(shù)據(jù)是根據(jù)所述其他數(shù)據(jù)導(dǎo)出的。
17.根據(jù)權(quán)利要求16的數(shù)據(jù),其中其中所述語音數(shù)據(jù)包括音頻數(shù)據(jù),并且定義所述音素和字格的所述數(shù)據(jù)是通過向自動語音識別系統(tǒng)傳送所述音頻信號導(dǎo)出的。
18.根據(jù)權(quán)利要求16或17的數(shù)據(jù),其中所述語音數(shù)據(jù)定義許多發(fā)言人的口頭言詞,并且所述數(shù)據(jù)定義用于各發(fā)言人之口頭言詞的獨立音素和字格。
19.一種響應(yīng)用戶的輸入查詢而對包括權(quán)利要求4至18之任一權(quán)利要求的數(shù)據(jù)的數(shù)據(jù)庫進行搜索的裝置,該裝置包括用于生成與用戶的輸入查詢相對應(yīng)的音素數(shù)據(jù)的裝置;用于利用為該輸入的查詢而生成的音素數(shù)據(jù)對音素和字格進行搜索的裝置;以及用于根據(jù)所述搜索裝置的輸出而輸出搜索結(jié)果的裝置。
20.根據(jù)權(quán)利要求19的裝置還包括用于生成與用戶的輸入查詢相對應(yīng)的單詞數(shù)據(jù)的裝置,以及使用為輸入查詢生成的單詞數(shù)據(jù)搜索音素和字格的裝置。
21.一種響應(yīng)用戶的輸入查詢而搜索包括權(quán)利要求4至18之任一權(quán)利要求的數(shù)據(jù)的數(shù)據(jù)庫的方法,該方法包括以下步驟生成與用戶的輸入查詢相對應(yīng)的音素數(shù)據(jù);使用為輸入查詢生成的音素數(shù)據(jù)對音素和字格進行搜索;以及根據(jù)所述搜索步驟的輸出而輸出搜索結(jié)果。
22.根據(jù)權(quán)利要求21的方法還包括以下步驟生成與用戶的輸入查詢相對應(yīng)的單詞數(shù)據(jù),以及使用為輸入查詢生成的單詞數(shù)據(jù)搜索音素和字格。
23.一種用于生成注釋數(shù)據(jù)的裝置,利用注釋數(shù)據(jù)給數(shù)據(jù)文件做注釋,該裝置包括用于接收音素和/或單詞數(shù)據(jù)的接收裝置;以及用于生成注釋數(shù)據(jù)的第一生成裝置,注釋數(shù)據(jù)定義與接收的音素和/或單詞數(shù)據(jù)相對應(yīng)的音素和/或字格;其中第一生成裝置包括用于生成節(jié)點數(shù)據(jù)的第二生成裝置,節(jié)點數(shù)據(jù)定義網(wǎng)格內(nèi)按時間排序的許多節(jié)點;用于生成鏈表數(shù)據(jù)的第三生成裝置,鏈表數(shù)據(jù)定義網(wǎng)格內(nèi)的許多鏈表,各鏈表從第一節(jié)點延伸到第二節(jié)點;用于生成聯(lián)合數(shù)據(jù)的第四生成裝置,聯(lián)合數(shù)據(jù)把每個節(jié)點或鏈表與音素和/或單詞數(shù)據(jù)中的音素或單詞聯(lián)系起來;以及用于生成塊數(shù)據(jù)的第五生成裝置,以便在滿足塊標(biāo)準(zhǔn)的按時間排序的塊序列中排列所有節(jié)點,塊標(biāo)準(zhǔn)為從任意給定數(shù)據(jù)塊中之節(jié)點發(fā)起的鏈表,不會延伸到該序列后面的預(yù)定塊數(shù)的數(shù)據(jù)塊中的節(jié)點之外。
24.根據(jù)權(quán)利要求23的裝置,其中塊標(biāo)準(zhǔn)為從任意給定數(shù)據(jù)塊中之節(jié)點發(fā)起的鏈表,不會延伸到下一數(shù)據(jù)塊中的節(jié)點之外。
25.根據(jù)權(quán)利要求23或24的裝置,其中第一生成裝置包括通過處理每個節(jié)點的節(jié)點數(shù)據(jù)和每個鏈表的鏈表數(shù)據(jù)形成音素和/或字格的處理裝置,該處理裝置包括i)用于向網(wǎng)格之現(xiàn)行數(shù)據(jù)塊添加一個或多個節(jié)點及其關(guān)聯(lián)鏈表直至現(xiàn)行數(shù)據(jù)塊中的節(jié)點數(shù)達到預(yù)定數(shù)值的裝置;ii)根據(jù)所述塊標(biāo)準(zhǔn)確定是否分割現(xiàn)行數(shù)據(jù)塊的第一確定裝置;以及iii)用于將現(xiàn)行數(shù)據(jù)塊分割為至少兩個數(shù)據(jù)塊的分割裝置。
26.根據(jù)權(quán)利要求25的裝置,對于每個音素和/或單詞,該裝置能夠獨立生成與該音素和/或單詞數(shù)據(jù)相對應(yīng)的節(jié)點數(shù)據(jù)和鏈表數(shù)據(jù)。
27.根據(jù)權(quán)利要求26的裝置,該裝置能夠在形成音素和/或字格前,生成所有節(jié)點數(shù)據(jù)和所有鏈表數(shù)據(jù)。
28.根據(jù)權(quán)利要求26的裝置,該裝置能夠?qū)⒚總€音素和/或單詞的節(jié)點數(shù)據(jù)和鏈表數(shù)據(jù),逐漸添加到音素和/或字格中,就象是為每個所述音素和/或單詞生成的。
29.根據(jù)權(quán)利要求28的裝置,該裝置能夠逐漸添加節(jié)點數(shù)據(jù)和鏈表數(shù)據(jù),其方法為判斷是否存在與正在處理的現(xiàn)行音素或單詞的開始和結(jié)束時間相對應(yīng)的節(jié)點;如果該節(jié)點不存在,將與開始和/或結(jié)束時間相對應(yīng)的節(jié)點添加到網(wǎng)格中;以及在與正在處理的現(xiàn)行音素或單詞的開始和結(jié)束時間相對應(yīng)的節(jié)點之間,添加一個鏈表。
30.根據(jù)權(quán)利要求25至29之任一權(quán)利要求的裝置,還包括第二確定裝置,用于確定各數(shù)據(jù)塊之第一定時(即,節(jié)點β),以標(biāo)識從前一數(shù)據(jù)塊發(fā)起的鏈表延伸到的數(shù)據(jù)塊內(nèi)的最新節(jié)點,和各數(shù)據(jù)塊之第二定時(即,節(jié)點α),以標(biāo)識延伸到下一數(shù)據(jù)塊的鏈表在發(fā)起數(shù)據(jù)塊內(nèi)的最早節(jié)點;并且其中第一確定裝置通過確定第一定時(即,節(jié)點β)在第二定時(即,節(jié)點α)之前,根據(jù)所述塊標(biāo)準(zhǔn)確定可以分割現(xiàn)行數(shù)據(jù)塊的節(jié)點,并且分割裝置能夠響應(yīng)第一確定裝置做出的分割現(xiàn)行數(shù)據(jù)塊的決定,分割現(xiàn)行數(shù)據(jù)塊。
31.根據(jù)權(quán)利要求30的裝置,其中當(dāng)向網(wǎng)格添加其他節(jié)點時,第二確定裝置能夠更新第一定時(即,節(jié)點β)和第二定時(即,節(jié)點α)。
32.根據(jù)權(quán)利要求30或31的裝置,其中分割裝置能夠分割第一定時(即,節(jié)點β)和第二定時(即,節(jié)點α)之間的現(xiàn)行數(shù)據(jù)塊。
33.根據(jù)權(quán)利要求30或權(quán)利要求31的裝置,其中分割裝置通過形成從前一塊之第一定時(即,節(jié)點β)或其附近開始,并在現(xiàn)行數(shù)據(jù)塊之第一定時(即,節(jié)點β)或其附近結(jié)束的新數(shù)據(jù)塊,分割現(xiàn)行數(shù)據(jù)塊。
34.根據(jù)權(quán)利要求30或權(quán)利要求31的裝置,其中如果前一塊的第一定時(即,節(jié)點β)在前一塊的第二定時(即,節(jié)點α)的后面,則分割裝置通過形成從前一塊之第一定時(即,節(jié)點β)或其附近開始,并在現(xiàn)行數(shù)據(jù)塊之第一定時(即,節(jié)點β)或其附近結(jié)束的新數(shù)據(jù)塊,分割現(xiàn)行數(shù)據(jù)塊,如果前一塊的第一定時(即,節(jié)點β)在前一塊的第二定時(即,節(jié)點α)的前面,則分割裝置分割第一定時(即,節(jié)點β)和第二定時(即,節(jié)點α)之間的現(xiàn)行數(shù)據(jù)塊。
35.根據(jù)權(quán)利要求23至34之任一權(quán)利要求的裝置,還包括第六生成裝置,用于根據(jù)輸入音頻或文本數(shù)據(jù)生成音素和/或單詞數(shù)據(jù)。
36.根據(jù)權(quán)利要求35的裝置,其中數(shù)據(jù)文件包括音頻數(shù)據(jù),并且第六生成裝置包括一個自動語音識別系統(tǒng),用于生成數(shù)據(jù)文件中的音頻數(shù)據(jù)的音素數(shù)據(jù)。
37.根據(jù)權(quán)利要求36的裝置,其中第六生成裝置包括一個字譯碼器,通過辨別自動語音識別系統(tǒng)生成的音素數(shù)據(jù)內(nèi)的可能單詞,生成單詞數(shù)據(jù)。
38.根據(jù)權(quán)利要求35的裝置,其中數(shù)據(jù)文件包括文本數(shù)據(jù),并且第六生成裝置包括一個文本至音素轉(zhuǎn)換器,用于根據(jù)數(shù)據(jù)文件中的文本數(shù)據(jù)生成音素數(shù)據(jù)。
39.根據(jù)權(quán)利要求32的裝置,其中第六生成裝置包括以下裝置之一a)用于接收并處理輸入語音注釋信號的裝置;b)用于接收并處理文本注釋的裝置;以及c)用于接收代表文本文檔的圖像數(shù)據(jù)的裝置,和將所述圖像數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù)的字符識別單元。
40.根據(jù)權(quán)利要求23至39之任一權(quán)利要求的裝置,其中所述第一生成裝置能夠生成定義每個所述節(jié)點之時戳信息的數(shù)據(jù)。
41.根據(jù)權(quán)利要求23至40之任一權(quán)利要求的裝置,其中所述第一生成裝置能夠生成定義數(shù)據(jù)庫內(nèi)每個數(shù)據(jù)塊之位置的數(shù)據(jù)。
42.根據(jù)權(quán)利要求40或41的裝置,其中所述數(shù)據(jù)文件包括時序信號,并且所述第一生成裝置能夠生成與所述時序信號同步的時戳數(shù)據(jù)。
43.根據(jù)權(quán)利要求42的裝置,其中所述時序信號為音頻和/或視頻信號。
44.一種用于向定義權(quán)利要求4至18之任一權(quán)利要求的音素和/或字格的數(shù)據(jù)中,添加與一個或多個音素或單詞相對應(yīng)的數(shù)據(jù)的裝置,該裝置包括i)節(jié)點處理裝置,如果確定網(wǎng)格中存在與需要添加的音素或單詞的開始和結(jié)束時間相對應(yīng)的節(jié)點,則將節(jié)點插入到網(wǎng)格中,如果不存在,則在網(wǎng)格中插入與開始和/或結(jié)束時間相對應(yīng)的接點;ii)鏈表處理裝置,在與需要添加的音素或單詞的開始和結(jié)束時間相對應(yīng)的節(jié)點之間添加一個鏈表;iii)選擇裝置,選擇由于插入其他節(jié)點而需要修改其關(guān)聯(lián)鏈表數(shù)據(jù)的現(xiàn)有節(jié)點;iv)分析所選的現(xiàn)有節(jié)點的鏈表數(shù)據(jù)的分析裝置;以及v)用于修改分析后的鏈表數(shù)據(jù)的裝置,如果需要的話;其中對每個其他節(jié)點而言,選擇裝置能夠選擇包含其他節(jié)點的數(shù)據(jù)塊中其他節(jié)點之前的節(jié)點,以及包含其他節(jié)點的數(shù)據(jù)塊之前預(yù)定塊數(shù)之內(nèi)的每個數(shù)據(jù)塊中的所有節(jié)點。
45.根據(jù)權(quán)利要求44的裝置,其中對于需要插入到給定數(shù)據(jù)塊內(nèi)的其他節(jié)點而言,選擇裝置只能選擇i)給定數(shù)據(jù)塊中正在插入的節(jié)點之前的節(jié)點,以及ii)前一數(shù)據(jù)塊中的所有節(jié)點。
46.根據(jù)權(quán)利要求44的裝置,其中數(shù)據(jù)為權(quán)利要求7要求的數(shù)據(jù),并且對于需要在給定數(shù)據(jù)塊中定時(即,節(jié)點)定義的插入位置插入的其他節(jié)點而言,選擇裝置可以選擇a)給定數(shù)據(jù)塊中插入位置前面的現(xiàn)有節(jié)點,如果插入位置在給定數(shù)據(jù)塊之第一定時(即,節(jié)點β)的后面的話;以及b)i)給定數(shù)據(jù)塊中插入位置前面的現(xiàn)有節(jié)點,與ii)前一數(shù)據(jù)塊中第二定時(即,節(jié)點α)后面的節(jié)點,如果插入位置在給定數(shù)據(jù)塊之第一定時(即,節(jié)點β)的前面的話。
47.根據(jù)權(quán)利要求44至46之任一權(quán)利要求的裝置,其中數(shù)據(jù)為權(quán)利要求9或其相關(guān)權(quán)利要求要求的數(shù)據(jù),并且將分析裝置安裝為,只分析從每個所選節(jié)點發(fā)起的最長鏈表。
48.根據(jù)權(quán)利要求23至43之任一權(quán)利要求的裝置還包括根據(jù)權(quán)利要求44至47之任一權(quán)利要求的裝置,用于將與一個或多個音素或單詞相對應(yīng)的數(shù)據(jù),添加到先前接收的音素和單詞數(shù)據(jù)中。
49.一種生成注釋數(shù)據(jù)以便給數(shù)據(jù)文件做注釋的方法,該方法包括以下步驟i)接收音素和/或單詞數(shù)據(jù);以及ii)生成注釋數(shù)據(jù),注釋數(shù)據(jù)定義與接收的音素和/或單詞數(shù)據(jù)相對應(yīng)的音素和/或字格;其中生成定義網(wǎng)格的注釋數(shù)據(jù)的步驟包括生成節(jié)點數(shù)據(jù),節(jié)點數(shù)據(jù)定義該網(wǎng)格內(nèi)的許多按時間排序的節(jié)點;生成鏈表數(shù)據(jù),鏈表數(shù)據(jù)定義該網(wǎng)格內(nèi)的許多鏈表的數(shù)據(jù),各鏈表從第一節(jié)點延伸到第二節(jié)點;生成聯(lián)合數(shù)據(jù),聯(lián)合數(shù)據(jù)把每個鏈表或節(jié)點與音素和/或單詞數(shù)據(jù)的音素或單詞聯(lián)系起來;以及生成塊數(shù)據(jù),以便在滿足塊標(biāo)準(zhǔn)的按時間排序的塊序列中排列所有節(jié)點,塊標(biāo)準(zhǔn)為從任意給定數(shù)據(jù)塊中之節(jié)點發(fā)起的鏈表,不會延伸到該序列后面的預(yù)定塊數(shù)的數(shù)據(jù)塊中的節(jié)點之外。
50.根據(jù)權(quán)利要求49的方法,其中塊標(biāo)準(zhǔn)為從任意給定數(shù)據(jù)塊中之節(jié)點發(fā)起的鏈表,不會延伸到下一數(shù)據(jù)塊中的節(jié)點之外。
51.根據(jù)權(quán)利要求49或50的方法,其中生成定義網(wǎng)格之注釋數(shù)據(jù)的步驟包括以下步驟通過處理每個節(jié)點的節(jié)點數(shù)據(jù)和每個鏈表的鏈表數(shù)據(jù)形成音素和/或字格i)用于向網(wǎng)格之現(xiàn)行數(shù)據(jù)塊添加一個或多個節(jié)點及其關(guān)聯(lián)鏈表直至現(xiàn)行數(shù)據(jù)塊中的節(jié)點數(shù)達到預(yù)定數(shù)值;ii)根據(jù)所述塊標(biāo)準(zhǔn)確定是否分割現(xiàn)行數(shù)據(jù)塊;以及iii)用于將現(xiàn)行數(shù)據(jù)塊分割為至少兩個數(shù)據(jù)塊。
52.根據(jù)權(quán)利要求51的方法,其中對于每個音素和/或單詞,獨立生成與該音素和/或單詞數(shù)據(jù)相對應(yīng)的節(jié)點數(shù)據(jù)和鏈表數(shù)據(jù)。
53.根據(jù)權(quán)利要求52的方法,其中在形成音素和/或字格前,生成所有節(jié)點數(shù)據(jù)和所有鏈表數(shù)據(jù)。
54.根據(jù)權(quán)利要求52的方法,其中將每個音素和/或單詞的節(jié)點數(shù)據(jù)和鏈表數(shù)據(jù),逐漸添加到音素和/或字格中,就象是為每個所述音素和/或單詞生成的。
55.根據(jù)權(quán)利要求54的方法,其中通過以下處理逐漸添加節(jié)點數(shù)據(jù)和鏈表數(shù)據(jù)判斷是否存在與正在處理的現(xiàn)行音素或單詞的開始和結(jié)束時間相對應(yīng)的節(jié)點;如果該節(jié)點不存在,將與開始和/或結(jié)束時間相對應(yīng)的節(jié)點添加到網(wǎng)格中;以及在與正在處理的現(xiàn)行音素或單詞的開始和結(jié)束時間相對應(yīng)的節(jié)點之間,添加一個鏈表。
56.根據(jù)權(quán)利要求51至55之任一權(quán)利要求的方法,還包括以下步驟,確定各數(shù)據(jù)塊之第一定時(即,節(jié)點β),以標(biāo)識從前一數(shù)據(jù)塊發(fā)起的鏈表延伸到的數(shù)據(jù)塊內(nèi)的最新節(jié)點,和各數(shù)據(jù)塊之第二定時(即,節(jié)點α),以標(biāo)識延伸到下一數(shù)據(jù)塊的鏈表在發(fā)起數(shù)據(jù)塊內(nèi)的最早節(jié)點;并且其中根據(jù)所述塊標(biāo)準(zhǔn)確定可以分割現(xiàn)行數(shù)據(jù)塊節(jié)點的步驟包括,確定第一定時(即,節(jié)點β)在第二定時(即,節(jié)點α)之前,并且響應(yīng)分割現(xiàn)行數(shù)據(jù)塊節(jié)點的決定,將現(xiàn)行數(shù)據(jù)塊分割為至少兩個數(shù)據(jù)塊。
57.根據(jù)權(quán)利要求56的方法還包括以下步驟當(dāng)向網(wǎng)格添加其他節(jié)點時,更新每個數(shù)據(jù)塊的第一定時(即,節(jié)點β)和第二定時(即,節(jié)點α)。
58.根據(jù)權(quán)利要求56或57的方法,其中分割現(xiàn)行數(shù)據(jù)塊的步驟包括分割第一定時(即,節(jié)點β)和第二定時(即,節(jié)點α)之間的現(xiàn)行數(shù)據(jù)塊。
59.根據(jù)權(quán)利要求56或權(quán)利要求57的方法,其中分割現(xiàn)行數(shù)據(jù)塊的步驟包括形成從前一塊之第一定時(即,節(jié)點β)或其附近開始,并在現(xiàn)行數(shù)據(jù)塊之第一定時(即,節(jié)點β)或其附近結(jié)束的新數(shù)據(jù)塊。
60.根據(jù)權(quán)利要求56或權(quán)利要求57的方法,其中如果前一塊的第一定時(即,節(jié)點β)在前一塊的第二定時(即,節(jié)點α)的后面,則分割現(xiàn)行數(shù)據(jù)塊的步驟包括,形成從前一塊之第一定時(即,節(jié)點β)或其附近開始,并在現(xiàn)行數(shù)據(jù)塊之第一定時(即,節(jié)點β)或其附近結(jié)束的新數(shù)據(jù)塊,如果前一塊的第一定時(即,節(jié)點β)在前一塊的第二定時(即,節(jié)點α)的前面,則該步驟包括分割第一定時(即,節(jié)點β)和第二定時(即,節(jié)點α)之間的現(xiàn)行數(shù)據(jù)塊。
61.根據(jù)權(quán)利要求49至60之任一權(quán)利要求的方法,還包括以下步驟,根據(jù)輸入音頻或文本數(shù)據(jù)生成音素和/或單詞數(shù)據(jù)。
62.根據(jù)權(quán)利要求61的方法,其中數(shù)據(jù)文件包括音頻數(shù)據(jù),并且生成音素和單詞數(shù)據(jù)的步驟包括利用自動語音識別系統(tǒng)生成數(shù)據(jù)文件中的音頻數(shù)據(jù)的音素數(shù)據(jù);以及通過辨別自動語音識別系統(tǒng)生成的音素數(shù)據(jù)內(nèi)的可能單詞,利用字譯碼器生成單詞數(shù)據(jù)。
63.根據(jù)權(quán)利要求61的方法,其中數(shù)據(jù)文件包括文本數(shù)據(jù),并且生成音素和單詞數(shù)據(jù)的步驟包括,利用文本至音素轉(zhuǎn)換器生成數(shù)據(jù)文件中的文本數(shù)據(jù)的音素數(shù)據(jù)。
64.根據(jù)權(quán)利要求61的方法,其中生成音素和單詞數(shù)據(jù)的步驟包括以下步驟之一a)接收并處理輸入語音注釋信號;b)接收并處理文本注釋;以及c)接收代表文本文檔的圖像數(shù)據(jù),并將所述圖像數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù)的字符識別單元。
65.根據(jù)權(quán)利要求49至64之任一權(quán)利要求的方法還包括生成定義每個所述節(jié)點之時戳信息的數(shù)據(jù)。
66.根據(jù)權(quán)利要求49至65之任一權(quán)利要求的方法還包括生成定義數(shù)據(jù)庫內(nèi)每個數(shù)據(jù)塊之位置的數(shù)據(jù)。
67.根據(jù)權(quán)利要求65或66的方法,其中所述數(shù)據(jù)文件包括時序信號,并且生成的時戳數(shù)據(jù)與所述時序信號同步。
68.根據(jù)權(quán)利要求67的方法,其中所述時序信號為音頻和/或視頻信號。
69.根據(jù)權(quán)利要求49或50的方法還包括,通過按以下方式處理每個節(jié)點的節(jié)點數(shù)據(jù)和每個鏈表的鏈表數(shù)據(jù),形成音素和/或字格i)添加兩個節(jié)點的節(jié)點數(shù)據(jù)與它們之間的一個或多個鏈表的鏈表數(shù)據(jù);ii)添加塊數(shù)據(jù),以提供兩個新添加的節(jié)點構(gòu)成的初始塊節(jié)點;iii)將一個或多個其他節(jié)點和/或鏈表的其他節(jié)點數(shù)據(jù)和/或鏈表數(shù)據(jù)添加到初始塊中;iv)重復(fù)(iii)直至初始塊中的節(jié)點數(shù)達到預(yù)定節(jié)點數(shù);v)根據(jù)所述塊標(biāo)準(zhǔn)確定可以分割初始塊節(jié)點;vi)添加其他塊數(shù)據(jù)以便將初始塊節(jié)點分割為至少兩個當(dāng)前塊節(jié)點;vii)將一個或多個其他節(jié)點和/或鏈表的其他節(jié)點數(shù)據(jù)和/或鏈表數(shù)據(jù)添加到當(dāng)前塊中;viii)重復(fù)(vii)直至當(dāng)前塊中的節(jié)點數(shù)達到預(yù)定節(jié)點數(shù);ix)根據(jù)所述塊標(biāo)準(zhǔn)確定可以分割當(dāng)前塊;x)添加其他塊數(shù)據(jù)以便將當(dāng)前塊分割為至少兩個數(shù)據(jù)塊;xi)如果需要的話,重復(fù)(viii)、(ix)和(x)直至將為音素和/或單詞數(shù)據(jù)生成的所有節(jié)點和鏈表的節(jié)點數(shù)據(jù)和鏈表數(shù)據(jù),添加到音素和/或字格中。
70.一種用于向定義權(quán)利要求4至18之任一權(quán)利要求的音素和/或字格的數(shù)據(jù)中,添加與一個或多個音素或單詞相對應(yīng)的數(shù)據(jù)的方法,該方法包括以下步驟i)如果確定網(wǎng)格中存在與需要添加的音素或單詞的開始和結(jié)束時間相對應(yīng)的節(jié)點,則將節(jié)點插入到網(wǎng)格中,如果不存在,則在網(wǎng)格中插入與開始和/或結(jié)束時間相對應(yīng)的接點;ii)在與需要添加的音素或單詞的開始和結(jié)束時間相對應(yīng)的節(jié)點之間添加一個鏈表;iii)選擇由于插入其他節(jié)點而需要修改其關(guān)聯(lián)鏈表數(shù)據(jù)的現(xiàn)有節(jié)點;iv)分析所選的現(xiàn)有節(jié)點的鏈表數(shù)據(jù);以及v)修改分析后的鏈表數(shù)據(jù)的方法,如果需要的話;其中對每個其他節(jié)點而言,選擇步驟選擇包含其他節(jié)點的數(shù)據(jù)塊中其他節(jié)點之前的節(jié)點,以及包含其他節(jié)點的數(shù)據(jù)塊之前預(yù)定塊數(shù)之內(nèi)的每個數(shù)據(jù)塊中的所有節(jié)點。
71.根據(jù)權(quán)利要求70的方法,其中對于需要插入到給定數(shù)據(jù)塊內(nèi)的其他節(jié)點而言,選擇步驟只選擇i)給定數(shù)據(jù)塊中正在插入的節(jié)點之前的節(jié)點,以及ii)前一數(shù)據(jù)塊中的所有節(jié)點。
72.根據(jù)權(quán)利要求70的方法,其中數(shù)據(jù)為權(quán)利要求7要求的數(shù)據(jù),并且對于需要在給定數(shù)據(jù)塊中定時(即,節(jié)點)定義的插入位置插入的其他節(jié)點而言,選擇步驟選擇a)給定數(shù)據(jù)塊中插入位置前面的現(xiàn)有節(jié)點,如果插入位置在給定數(shù)據(jù)塊之第一定時(即,節(jié)點β)的后面的話;以及b)i)給定數(shù)據(jù)塊中插入位置前面的現(xiàn)有節(jié)點,與ii)前一數(shù)據(jù)塊中第二定時(即,節(jié)點α)后面的節(jié)點,如果插入位置在給定數(shù)據(jù)塊之第一定時(即,節(jié)點β)的前面的話。
73.根據(jù)權(quán)利要求70至72之任一權(quán)利要求的方法,其中數(shù)據(jù)為權(quán)利要求9或其相關(guān)權(quán)利要求要求的數(shù)據(jù),并且分析步驟只分析從每個所選節(jié)點發(fā)起的最長鏈表。
74.根據(jù)權(quán)利要求49至69之任一權(quán)利要求的方法還包括以下步驟利用根據(jù)權(quán)利要求70至73之任一權(quán)利要求的方法,將其他數(shù)據(jù)添加到網(wǎng)格中。
75.一種數(shù)據(jù)載體,用于傳送根據(jù)權(quán)利要求1至18之任一權(quán)利要求的數(shù)據(jù),或傳送用于控制處理器實現(xiàn)權(quán)利要求21、22以及49至74之任一方法的可由處理器執(zhí)行的指令。
76.用于控制處理器實現(xiàn)權(quán)利要求21、22以及49至74之任一方法的可由處理器執(zhí)行的指令。
全文摘要
提供了一種給數(shù)據(jù)庫內(nèi)的數(shù)據(jù)文件做注釋的數(shù)據(jù)結(jié)構(gòu)。注釋數(shù)據(jù)包括音素和字格,從而能夠響應(yīng)用戶的輸入查詢,快速有效地搜索數(shù)據(jù)庫中所需信息的數(shù)據(jù)文件。音素和字格包括許多按時間排序的節(jié)點,以及節(jié)點之間的許多鏈表。每個鏈表具有與其關(guān)聯(lián)的音素或單詞。在按時間排序的數(shù)據(jù)塊序列中排列所有節(jié)點,從而能夠方便地將其他數(shù)據(jù)添加到網(wǎng)格中。
文檔編號G10L15/22GK1457476SQ0181561
公開日2003年11月19日 申請日期2001年9月28日 優(yōu)先權(quán)日2000年9月29日
發(fā)明者賈森·P·A·查理斯沃斯, 菲利普·N·加納 申請人:佳能株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1