亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

音序碼以及從語音到詞庫的快速搜索方法

文檔序號:6410109閱讀:305來源:國知局

專利名稱::音序碼以及從語音到詞庫的快速搜索方法
技術(shù)領(lǐng)域
:本發(fā)明涉及中文信息處理領(lǐng)域,尤其涉及一種音序碼以及從語音到詞庫的快速搜索方法。近二十年來,國內(nèi)外科技人員為中文信息處理作出了不懈的努力。首先是制定了漢字機(jī)內(nèi)碼國家標(biāo)準(zhǔn)GB2312-80,通稱國標(biāo)碼。標(biāo)準(zhǔn)化的漢字內(nèi)碼與漢字字符集有著簡明的對應(yīng)規(guī)則。而字符集的區(qū)位排列次序與漢字的發(fā)音并沒有必然的聯(lián)系?;谥形男畔⑻幚磉^程經(jīng)常出現(xiàn)語音與文字相互轉(zhuǎn)換的需要,國標(biāo)碼顯然不能適應(yīng)這一情況。其中,長期困擾文語轉(zhuǎn)換的多音字問題就是典型的例子。其次,中文信息處理系統(tǒng)早已由字處理過渡到詞處理階段。以從鍵盤向計(jì)算機(jī)輸入漢字為例,輸入一個(gè)詞一般比孤立地輸入構(gòu)成詞的單字的重碼率要低得多。語音識別系統(tǒng)中,計(jì)算機(jī)所能得到的也是一系列聲母、韻母或音節(jié)信息。與鍵盤輸入的差別僅在于,它不是一個(gè)個(gè)確定的音,而是一個(gè)包含多個(gè)候選音的模糊陣列。這樣的音-字轉(zhuǎn)換系統(tǒng),同樣需要得到詞庫的支持。通常最自然的做法是詞庫是一個(gè)獨(dú)立的結(jié)構(gòu)。只要建立索引表,即可直接由音找到詞形。在搜詞過程中,需要對組成該詞的漢字機(jī)內(nèi)碼及對應(yīng)的顯示字庫頻繁地訪問與調(diào)用。如果該處理系統(tǒng)還要調(diào)用詞性、語義和其他有關(guān)信息,計(jì)算機(jī)的查詢負(fù)擔(dān)則會相應(yīng)增加,搜索速度很難達(dá)到工程上實(shí)時(shí)的要求。特別是在面對一個(gè)模糊的語音陣列時(shí),往往需要對大多數(shù)不滿足組詞條件的相鄰音盡快予以排除。在這種情況下,基于國標(biāo)碼的一般詞庫的查詢方式,將不得不為大量的無效或冗余信息付出寶貴的時(shí)間代價(jià)。進(jìn)入八、九十年代,盡管語音識別的研究取得了令人矚目的進(jìn)展,但現(xiàn)有的語音識別結(jié)果仍不盡人意。特別是最具實(shí)用意義的連續(xù)語音識別,更是公認(rèn)的難題。解決這一難題的出路在于自然語言理解。長期以來,語音識別和自然語言理解兩個(gè)研究領(lǐng)域基本上是并行地獨(dú)立發(fā)展?,F(xiàn)有語音識別的主流方法主要是利用語音信號中的聲學(xué)信息和模式匹配技術(shù),而忽視了人類的語音與文字一樣具有豐富的內(nèi)涵這一特點(diǎn)。對語音信息的處理,在本質(zhì)上與自然語言理解是不可分割的。事實(shí)上,語音識別和語言理解一樣,都必須依賴于語言學(xué)知識(包括聲學(xué)、語音學(xué)、詞匯學(xué)、語法、語義、語用學(xué)等知識)和自然語言處理方法。因此,應(yīng)該建立一個(gè)以語音、語法、語義知識為基礎(chǔ)的語音識別與語言理解緊密結(jié)合的系統(tǒng),該系統(tǒng)不僅能將基于語言理解的音-字轉(zhuǎn)換程序用于語音識別的后級處理,而且,充分運(yùn)用語言理解來引導(dǎo)語音識別,以提高其識別效率和正確率。各語音識別系統(tǒng)與自然語言理解系統(tǒng)進(jìn)行交互時(shí),通過解模糊預(yù)處理,對語音識別進(jìn)行適當(dāng)引導(dǎo),不僅可以提高總體識別正確率,還可以適時(shí)減少雙方的待處理數(shù)據(jù)量,以接近實(shí)時(shí)對話的目標(biāo)。本發(fā)明的目的在于,針對上述已有技術(shù)中所存在的問題,提供一種音序碼以及從語音到詞庫的快速搜索方法。如所周知,中文信息處理中經(jīng)常出現(xiàn)語音與文字相互轉(zhuǎn)換的需要。在文-語轉(zhuǎn)換方面,國標(biāo)一、二級漢字中,有近千個(gè)字可以發(fā)兩個(gè)以上不同的音。這些多音字妨礙了國標(biāo)碼文本的語音轉(zhuǎn)換。而這一障礙,如果換一種寓音形信息于一體的編碼方案,即可自行消除。本發(fā)明采用的“音序碼”就是一種寓音形信息于一體的漢字編碼方法。這種編碼方法是本發(fā)明人用于語義層面的語言信息處理知識庫的依托。在音-詞轉(zhuǎn)換方面,中文信息處理系統(tǒng)已由字處理過渡到詞處理以至段落和篇章處理階段。在一些特定情況下,例如語音識別系統(tǒng)輸出一個(gè)模糊陣列,需要程序自動判斷哪些音可以組成詞,并由此作出引導(dǎo)處理。由于模糊音的候選集可能很大,音的各種組合數(shù)將是一個(gè)天文數(shù)字。本發(fā)明的音碼矩陣和分離結(jié)構(gòu)的詞庫,則可以毫不冗余地迅速排除掉不可能的組合,并進(jìn)一步得到包括語義在內(nèi)的詞匯信息。音碼矩陣還可容易地實(shí)現(xiàn)雙向搜索同效率。熟悉計(jì)算機(jī)編程的用戶,可參照本發(fā)明所提供的技術(shù),結(jié)合實(shí)際情況加以應(yīng)用,必將提高其軟件的運(yùn)行效率。本發(fā)明的音序碼以及從語音到詞庫的快速搜索方法,其特征在于,以語音為入口線索,制定寓音形于一體的漢字內(nèi)部編碼--音序碼;以音碼為基礎(chǔ),構(gòu)造音碼矩陣。表示拼音的音碼和表示聲調(diào)和字形的序碼,確定漢字音與形的一一對應(yīng)關(guān)系。在分離結(jié)構(gòu)詞庫的支持下,通過對音碼矩陣的查詢,快速確定矩陣中某一元素對應(yīng)兩音的組詞特征,從而保證音-詞轉(zhuǎn)換的高效性。本發(fā)明的音序碼以及從語音到詞庫的快速搜索方法,包括1、音碼漢語用拼音字母表示的基本音總計(jì)405個(gè),寓音形信息的編碼方案基于漢字的下列分布特征漢字?jǐn)?shù)量N基本音個(gè)數(shù)1N≤3235122*32≥N>324233*32≥N>2*32944*32≥N>3*3235N>4*320如果對上列1-4類分布分別給以1-4個(gè)編碼,總共需要474個(gè)編碼,可用9位表示,命名為音碼,每一音碼內(nèi)的不同漢字用5位表示,命名為序碼,總計(jì)14位。仍然是用兩個(gè)字節(jié)表示一個(gè)漢字,并可與國標(biāo)碼高位置1保持一致。音碼表示了拼音,序碼表示了聲調(diào)和字形,使?jié)h字的音形信息完整地寓于一體。當(dāng)然,在實(shí)際進(jìn)行編碼時(shí),音碼號不應(yīng)限于474,而應(yīng)該將0-511盡量用滿(見圖1)。編碼時(shí),考慮到少量基本音下的漢字并不具備組詞功能,所以將它們合并到最后一個(gè)音碼(511號)。0-31號音碼留給圖形符號。圖1是音碼對應(yīng)的字符集,該圖給出全部一、二級漢字的音碼字符表。與國標(biāo)碼的差別之一是多音字在不同音碼中重復(fù)出現(xiàn)。2、音碼矩陣音碼的意義在于構(gòu)造音碼矩陣,由于漢語的非單音詞以雙音詞為主,這個(gè)音碼矩陣可為音詞轉(zhuǎn)換帶來極大的便利。所謂音碼矩陣就是一個(gè)512×512的方陣,方陣的每一結(jié)點(diǎn)(元素)用一位或兩位表示,僅占用31.25K或62.50K字節(jié)。沿著這個(gè)矩陣的某一行搜索,可找出以該音為第一音的全部詞匯,沿著這個(gè)矩陣的某一列搜索,可找出以該音為第二音的全部詞匯。如果有必要的話,不難把這一窮極搜索功能擴(kuò)展到指定音節(jié)在多字詞中的任一位置的情況。音碼矩陣以其高效的雙向搜索功能為基礎(chǔ),其作用不僅在于便利語音與文字的轉(zhuǎn)換,而且是實(shí)現(xiàn)詞義庫與詞庫同構(gòu)的關(guān)鍵;是實(shí)現(xiàn)對語音識別進(jìn)行二次處理引導(dǎo)的保證;是實(shí)現(xiàn)分離結(jié)構(gòu)詞庫的基礎(chǔ)??傊?,音碼矩陣是一種靈活高效的數(shù)據(jù)結(jié)構(gòu),它充分體現(xiàn)了漢語的特點(diǎn),能滿足漢語語音及文字處理的各種需要。本發(fā)明人所研制的理解處理軟件模塊,以及相應(yīng)的漢語詞庫、字義庫、詞義庫和音節(jié)感知庫,都是以音序碼為依托的。3、分離結(jié)構(gòu)的詞庫分離結(jié)構(gòu)的詞庫系由音碼矩陣、結(jié)點(diǎn)說明庫和擴(kuò)展庫三部分構(gòu)成。結(jié)點(diǎn)說明庫采用規(guī)范化結(jié)構(gòu),對每個(gè)結(jié)點(diǎn)統(tǒng)一用兩字節(jié)進(jìn)行說明。正是這一規(guī)范化措施使詞義庫得以與詞庫同構(gòu),從而實(shí)現(xiàn)了兩庫尋址的合一。引入擴(kuò)展庫,是節(jié)點(diǎn)說明庫得以規(guī)范化的關(guān)鍵。結(jié)點(diǎn)說明庫用2位來說明結(jié)點(diǎn)是否需要擴(kuò)展,即結(jié)點(diǎn)的類型說明。它是說明庫的固定部分。不需要擴(kuò)展的結(jié)點(diǎn)只有一個(gè)雙音詞,這是結(jié)點(diǎn)的大多數(shù)情況。這時(shí),用10位標(biāo)明雙音詞的兩個(gè)序碼,用2位標(biāo)明它的級別,另外2位表明它是否兒化及能否插入。級別分4級0-一級常用詞,1-二級常用詞,2-專業(yè)詞匯,3-非常用詞。需要擴(kuò)展的結(jié)點(diǎn)分三種情況,一是有同音詞,二是多音詞,三是雙音詞與多音詞并存。這時(shí),說明內(nèi)容為三類擴(kuò)展庫的地址。在結(jié)點(diǎn)說明庫中只需要給出雙字詞的兩個(gè)序碼。作為一種數(shù)據(jù)結(jié)構(gòu),不僅與漢字輸入的“雙拼”方式(即對每一漢字的聲母和韻母各擊一次鍵的輸入方式)最相匹配。而且可以將雙字詞詞庫的存儲空間節(jié)省將近一半。下面列舉將本發(fā)明應(yīng)用于連續(xù)語音識別的漢語知識庫的設(shè)計(jì)與實(shí)施。具體說來,就是將本發(fā)明應(yīng)用于一個(gè)實(shí)際的旅游人機(jī)對話系統(tǒng)。以前,本發(fā)明人所在的中國科學(xué)院聲學(xué)研究所自然語言理解課題組業(yè)已投入使用的音節(jié)感知庫、字義庫、詞義庫面對的是真正的漢語自然語言,它結(jié)構(gòu)緊湊且不受詞匯量和題材限制。但是,在處理模糊度很大的語音數(shù)據(jù)的過程中,處理速度尚不能做到實(shí)時(shí)。本發(fā)明人對此進(jìn)行了改進(jìn)。具體到一個(gè)確定的語境——“旅游對話系統(tǒng)”——所用到的詞匯量以及其義項(xiàng)量必然大大減少,而涉及的句類也相應(yīng)簡化。這就提出對已有知識庫的改造問題,改造的目標(biāo)是使詞庫內(nèi)容和結(jié)構(gòu)適應(yīng)這一情況。具體措施之一是甩掉與本領(lǐng)域無關(guān)的詞匯和義項(xiàng),適當(dāng)增加與旅游有關(guān)的專用詞匯;二是改進(jìn)庫的結(jié)構(gòu),爭取以盡量快的速度為連續(xù)語音識別的回歸處理提供信息。本發(fā)明應(yīng)用于旅游人機(jī)對話系統(tǒng)時(shí),進(jìn)行了庫結(jié)構(gòu)的設(shè)計(jì)與改造。原詞庫的結(jié)點(diǎn)表的結(jié)構(gòu)是以首字音碼為行,次字音碼為列組成的矩陣,例如0···········512(首字音碼)1·····512(次字音碼)其中每一元素構(gòu)成一個(gè)結(jié)點(diǎn),其數(shù)值占1位,用來快速表達(dá)該結(jié)點(diǎn)下詞的有無信息。對詞庫信息的索引是靠查詢“結(jié)點(diǎn)表”實(shí)現(xiàn)的。如查詢到元素值為0(稱為零結(jié)點(diǎn)),說明該結(jié)點(diǎn)下無詞,只有元素值為1時(shí),才索引到地址庫,進(jìn)一步得到詞匯信息的細(xì)節(jié)。知識庫改造方案的設(shè)計(jì)思想是基于詞匯量少的特點(diǎn),將非零結(jié)點(diǎn)的二維結(jié)構(gòu)硬性轉(zhuǎn)化為一維有序排列。此方案的優(yōu)勢在于,尋址時(shí)間與音碼總數(shù)N無關(guān),而僅與每行或每列的非零結(jié)點(diǎn)個(gè)數(shù)M有關(guān)(正比于log2M),并能以較小代價(jià)做到行列搜索同效率。(1)新結(jié)點(diǎn)庫在原結(jié)點(diǎn)表的基礎(chǔ)上重新構(gòu)造而成。具體思路是將原結(jié)點(diǎn)表中一個(gè)結(jié)點(diǎn)占用1bit改為2bites,形成(512*512/4)字節(jié)的定長結(jié)構(gòu)。零結(jié)點(diǎn)仍表示無詞,非零結(jié)點(diǎn)則可用數(shù)值表示該結(jié)點(diǎn)的屬性。這種結(jié)構(gòu)對限定專業(yè)領(lǐng)域的搜詞非常有效。有時(shí),僅憑類別信息,語義內(nèi)容實(shí)際上已經(jīng)直接取得,省去了進(jìn)入專用詞庫的時(shí)間。(2)結(jié)點(diǎn)索引庫由索引庫一和二兩部分構(gòu)成。索引庫一是從0號音碼到512號音碼并以定長2字節(jié)連續(xù)排列的索引塊,記錄的內(nèi)容為截止到某音碼的非零結(jié)點(diǎn)累計(jì)值(n)。索引庫二為非定長結(jié)構(gòu),每個(gè)單元占4字節(jié),它將以首字音碼為序,連續(xù)存儲結(jié)點(diǎn)庫中每一非零結(jié)點(diǎn)所對應(yīng)詞的第二字音碼(9位)及該結(jié)點(diǎn)下詞的個(gè)數(shù)n(7位),其余2字節(jié)為該結(jié)點(diǎn)首詞序號NiO。此后的尋址均以NiO為基點(diǎn)。由“索引庫一”到“索引庫二”的查詢是這樣實(shí)現(xiàn)的從結(jié)點(diǎn)表得到了首、次字音碼,由首字音碼從“索引庫一”查到的結(jié)點(diǎn)地址(n×4)作為“索引庫二”的起始地址,由此可取出以該音碼為首字音碼的全部非零結(jié)點(diǎn)。由于次字音碼也是有序排列,從而可以快速查詢感興趣結(jié)點(diǎn)的信息。尋址分兩步進(jìn)行首先由首字音碼查出該音碼下的非零結(jié)點(diǎn)數(shù)和結(jié)點(diǎn)索引信息的起始地址;第二步查詢每個(gè)結(jié)點(diǎn)下的首詞詞號Ni和詞的個(gè)數(shù),然后經(jīng)簡單計(jì)算即可得到“專用詞庫”的地址。查詢非零結(jié)點(diǎn)內(nèi)容</tables></tables>對反向搜索,庫結(jié)構(gòu)不變,存儲內(nèi)容只須將第一和第二音碼換位。數(shù)據(jù)可由程序自動生成。(3)專用詞庫可以得到詞級、獨(dú)立性、語義符號等信息。本發(fā)明音序碼以及從語音到詞庫的快速搜索方法的效果在于,漢字的音形信息完整地寓于一體的音序碼以及由此構(gòu)造的音碼矩陣,以接近極限的速度排除并不能構(gòu)成詞的拼音組合,減少了大量冗余訪問,實(shí)現(xiàn)了對詞庫的高效搜索。本發(fā)明中的音碼矩陣的輸入端是語音信息,其中包括語音識別的輸入和鍵盤輸入的拼音(及其變形)信息。通過對計(jì)算機(jī)所存儲的音碼矩陣的查詢,得到的是詞庫中相關(guān)詞匯的地址集。由于在實(shí)際應(yīng)用中輸入端面對的可能是模糊度很大的語音“陣列”,通過對結(jié)點(diǎn)表的查詢,可以從語音陣列中快速分離出單音節(jié)陣列和非單音詞。這一步不僅是效果最為顯著的解模糊處理,而且也是糾錯(cuò)處理的可靠基礎(chǔ)。本詞庫詞匯量小,裝入的單音詞也不多,這種條件下,經(jīng)過“結(jié)點(diǎn)庫”處理后,會出現(xiàn)較多的單音節(jié)陣列,非單音詞的大多數(shù)情況是同音詞很少甚至沒有。這就形成進(jìn)一步解模糊和糾錯(cuò)處理的良性基礎(chǔ)。從上述可看出,絕大多數(shù)情況根本不必進(jìn)入專用詞庫,即可得到單音陣列位置等所需信息。而一旦進(jìn)入專用詞庫,得到的詞以及語義,可全部送入后級進(jìn)行語義距離計(jì)算,進(jìn)一步作解模糊處理。采用本發(fā)明的意義在于既保證了遍歷性,又不做無用功。這種分離結(jié)構(gòu)的詞庫不但可進(jìn)行正向搜索,而且可進(jìn)行反向搜索,這為語音識別提供了預(yù)測與反饋的有效手段。在實(shí)際解模糊處理過程中,任意選取三句語料,進(jìn)行搜詞速度測試。條件是詞庫中總詞數(shù)為1000,每句話字長11-17,每個(gè)音的模糊候選集為15-30不等。要求對詞庫作遍歷性搜索,找出全部有關(guān)詞匯。測試結(jié)果是第一句1.26秒,第二句1.38秒,第三句0.71秒權(quán)利要求1.一種音序碼以及從語音到詞庫的快速搜索方法,其特征在于,以語音為入口線索,制定寓音形于一體的漢字內(nèi)部編碼--音序碼;以音碼為基礎(chǔ),構(gòu)造音碼矩陣;表示拼音的音碼和表示聲調(diào)和字形的序碼,確定漢字形與音的一一對應(yīng)關(guān)系;在分離結(jié)構(gòu)詞庫的支持下,通過對音碼矩陣的查詢,快速確定矩陣中某一元素對應(yīng)兩音的組詞特征,從而保證音-詞的高效轉(zhuǎn)換。2.如權(quán)利要求1所述的音序碼以及從語音到詞庫的快速搜索方法,其特征在于,所述的音序碼系漢語拼音字母表示的基本音405個(gè),寓音形信息的編碼方案基于漢字的下列分布特征漢字?jǐn)?shù)量N基本音個(gè)數(shù)1N≤3235122*32≥N>324233*32≥N>2*32944*32≥N>3*3235N>4*320若對上列1-4類分布分別給以1-4個(gè)編碼,總共需要474個(gè)編碼,可用9位表示,命名為音碼,每一音碼內(nèi)的不同漢字用5位表示,命名為序碼,總計(jì)14位;仍然是用兩個(gè)字節(jié)表示一個(gè)漢字,并可與國標(biāo)碼高位置1保持一致;音碼表示了拼音,序碼表示了聲調(diào)和字形信息,使?jié)h字的音形信息完整地寓于一體。3.如權(quán)利要求2所述的音序碼以及從語音到詞庫的快速搜索方法,其特征在于,在實(shí)際進(jìn)行編碼時(shí),音碼號不應(yīng)限于474,而應(yīng)該將0-511盡量用滿;對多余音碼的分配以組詞能力的強(qiáng)弱為條件。4.如權(quán)利要求3所述的音序碼以及從語音到詞庫的快速搜索方法,其特征在于,構(gòu)造音碼矩陣;該矩陣以首字音碼為行,次字音碼為列,每個(gè)元素構(gòu)成一個(gè)結(jié)點(diǎn),其數(shù)值占一位,用來表達(dá)該結(jié)點(diǎn)下詞的有無信息;對詞庫信息的快速搜索是靠查詢結(jié)點(diǎn)表實(shí)現(xiàn)的;如查詢到元素值為0(稱之為零結(jié)點(diǎn)),說明該結(jié)點(diǎn)下無詞;只有元素值為1時(shí),才索引到地址庫,進(jìn)一步獲取詞匯信息的細(xì)節(jié)。5.如權(quán)利要求1或4所述的音序碼以及從語音到詞庫的快速搜索方法,其特征在于,所述音碼矩陣系一個(gè)512×512的方陣,方陣的每一結(jié)點(diǎn)(元素)可用一位或兩位表示,僅占用31.25K或62.50K字節(jié);沿著這個(gè)矩陣的某一行搜索,可找出以該音為第一音的全部詞匯,沿著這個(gè)矩陣的某一列搜索,可找出以該音為第二音的全部詞匯;如果有必要的話,不難把這一窮極搜索功能擴(kuò)展到指定音節(jié)在多字詞中的任一位置的情況。6.如權(quán)利要求1所述的音序碼以及從語音到詞庫的快速搜索方法,其特征在于,所說的分離結(jié)構(gòu)的詞庫,包括有音碼矩陣、結(jié)點(diǎn)說明庫和擴(kuò)展庫三部分。7.如權(quán)利要求6所述的音序碼以及從語音到詞庫的快速搜索方法,其特征在于,結(jié)點(diǎn)說明庫采用規(guī)范化結(jié)構(gòu),對每個(gè)結(jié)點(diǎn)統(tǒng)一用兩字節(jié)進(jìn)行說明。正是這一規(guī)范化措施使詞義庫得以與詞庫同構(gòu),從而實(shí)現(xiàn)了兩庫尋址的合一;結(jié)點(diǎn)說明庫得以規(guī)范化的關(guān)鍵是引入擴(kuò)展庫;結(jié)點(diǎn)說明庫系用2位來說明結(jié)點(diǎn)是否需要擴(kuò)展,是說明庫的固定部分。8.如權(quán)利要求7所述的音序碼以及從語音到詞庫的快速搜索方法,其特征在于,所述的結(jié)點(diǎn)包括需要擴(kuò)展的結(jié)點(diǎn)和不需要擴(kuò)展的結(jié)點(diǎn)。9.如權(quán)利要求8所述的音序碼以及從語音到詞庫的快速搜索方法,其特征在于,需要擴(kuò)展的結(jié)點(diǎn)分三種情況,一是有同音詞,二是多音詞,三是雙音詞與多音詞并存;這時(shí),說明內(nèi)容為三類擴(kuò)展庫的地址。10.如權(quán)利要求8所述的音序碼及從語音到詞庫的快速搜索方法,其特征在于,不需要擴(kuò)展的結(jié)點(diǎn)只有一個(gè)雙音詞,這是結(jié)點(diǎn)的大多數(shù)情況;這時(shí),用10位標(biāo)明雙音詞的兩個(gè)序碼,用2位標(biāo)明它的級別,另外2位表明它是否兒化及能否插入;級別分4級0-一級常用詞,1-二級常用詞,2-專業(yè)詞匯,3-非常用詞。全文摘要本發(fā)明涉及中文信息處理領(lǐng)域,尤其涉及一種音序碼以及從語音到詞庫的快速搜索方法。其特點(diǎn)在于,以語音為入口線索,制定寓音形于一體的漢字內(nèi)部編碼;以音碼為基礎(chǔ),構(gòu)造音碼矩陣;表示拼音的音碼和表示聲調(diào)和字形的序碼,確定漢字音與形的一一對應(yīng)關(guān)系;在分離結(jié)構(gòu)詞庫的支持下,通過對音碼矩陣的查詢,快速確定矩陣中某一元素對應(yīng)兩音的組詞特征,從而保證音—詞轉(zhuǎn)換的高效性。文檔編號G06F3/023GK1156853SQ9610121公開日1997年8月13日申請日期1996年2月7日優(yōu)先權(quán)日1996年2月7日發(fā)明者黃曾旸,杜燕玲申請人:中國科學(xué)院聲學(xué)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1