音序碼以及從語音到詞庫的快速搜索方法

文檔序號：6410109閱讀：305來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：音序碼以及從語音到詞庫的快速搜索方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及中文信息處理領(lǐng)域，尤其涉及一種音序碼以及從語音到詞庫的快速搜索方法。近二十年來，國內(nèi)外科技人員為中文信息處理作出了不懈的努力。首先是制定了漢字機(jī)內(nèi)碼國家標(biāo)準(zhǔn)GB2312-80，通稱國標(biāo)碼。標(biāo)準(zhǔn)化的漢字內(nèi)碼與漢字字符集有著簡明的對應(yīng)規(guī)則。而字符集的區(qū)位排列次序與漢字的發(fā)音并沒有必然的聯(lián)系?；谥形男畔⑻幚磉^程經(jīng)常出現(xiàn)語音與文字相互轉(zhuǎn)換的需要，國標(biāo)碼顯然不能適應(yīng)這一情況。其中，長期困擾文語轉(zhuǎn)換的多音字問題就是典型的例子。其次，中文信息處理系統(tǒng)早已由字處理過渡到詞處理階段。以從鍵盤向計(jì)算機(jī)輸入漢字為例，輸入一個(gè)詞一般比孤立地輸入構(gòu)成詞的單字的重碼率要低得多。語音識別系統(tǒng)中，計(jì)算機(jī)所能得到的也是一系列聲母、韻母或音節(jié)信息。與鍵盤輸入的差別僅在于，它不是一個(gè)個(gè)確定的音，而是一個(gè)包含多個(gè)候選音的模糊陣列。這樣的音-字轉(zhuǎn)換系統(tǒng)，同樣需要得到詞庫的支持。通常最自然的做法是詞庫是一個(gè)獨(dú)立的結(jié)構(gòu)。只要建立索引表，即可直接由音找到詞形。在搜詞過程中，需要對組成該詞的漢字機(jī)內(nèi)碼及對應(yīng)的顯示字庫頻繁地訪問與調(diào)用。如果該處理系統(tǒng)還要調(diào)用詞性、語義和其他有關(guān)信息，計(jì)算機(jī)的查詢負(fù)擔(dān)則會相應(yīng)增加，搜索速度很難達(dá)到工程上實(shí)時(shí)的要求。特別是在面對一個(gè)模糊的語音陣列時(shí)，往往需要對大多數(shù)不滿足組詞條件的相鄰音盡快予以排除。在這種情況下，基于國標(biāo)碼的一般詞庫的查詢方式，將不得不為大量的無效或冗余信息付出寶貴的時(shí)間代價(jià)。進(jìn)入八、九十年代，盡管語音識別的研究取得了令人矚目的進(jìn)展，但現(xiàn)有的語音識別結(jié)果仍不盡人意。特別是最具實(shí)用意義的連續(xù)語音識別，更是公認(rèn)的難題。解決這一難題的出路在于自然語言理解。長期以來，語音識別和自然語言理解兩個(gè)研究領(lǐng)域基本上是并行地獨(dú)立發(fā)展?，F(xiàn)有語音識別的主流方法主要是利用語音信號中的聲學(xué)信息和模式匹配技術(shù)，而忽視了人類的語音與文字一樣具有豐富的內(nèi)涵這一特點(diǎn)。對語音信息的處理，在本質(zhì)上與自然語言理解是不可分割的。事實(shí)上，語音識別和語言理解一樣，都必須依賴于語言學(xué)知識(包括聲學(xué)、語音學(xué)、詞匯學(xué)、語法、語義、語用學(xué)等知識)和自然語言處理方法。因此，應(yīng)該建立一個(gè)以語音、語法、語義知識為基礎(chǔ)的語音識別與語言理解緊密結(jié)合的系統(tǒng)，該系統(tǒng)不僅能將基于語言理解的音-字轉(zhuǎn)換程序用于語音識別的后級處理，而且，充分運(yùn)用語言理解來引導(dǎo)語音識別，以提高其識別效率和正確率。各語音識別系統(tǒng)與自然語言理解系統(tǒng)進(jìn)行交互時(shí)，通過解模糊預(yù)處理，對語音識別進(jìn)行適當(dāng)引導(dǎo)，不僅可以提高總體識別正確率，還可以適時(shí)減少雙方的待處理數(shù)據(jù)量，以接近實(shí)時(shí)對話的目標(biāo)。本發(fā)明的目的在于，針對上述已有技術(shù)中所存在的問題，提供一種音序碼以及從語音到詞庫的快速搜索方法。如所周知，中文信息處理中經(jīng)常出現(xiàn)語音與文字相互轉(zhuǎn)換的需要。在文-語轉(zhuǎn)換方面，國標(biāo)一、二級漢字中，有近千個(gè)字可以發(fā)兩個(gè)以上不同的音。這些多音字妨礙了國標(biāo)碼文本的語音轉(zhuǎn)換。而這一障礙，如果換一種寓音形信息于一體的編碼方案，即可自行消除。本發(fā)明采用的“音序碼”就是一種寓音形信息于一體的漢字編碼方法。這種編碼方法是本發(fā)明人用于語義層面的語言信息處理知識庫的依托。在音-詞轉(zhuǎn)換方面，中文信息處理系統(tǒng)已由字處理過渡到詞處理以至段落和篇章處理階段。在一些特定情況下，例如語音識別系統(tǒng)輸出一個(gè)模糊陣列，需要程序自動判斷哪些音可以組成詞，并由此作出引導(dǎo)處理。由于模糊音的候選集可能很大，音的各種組合數(shù)將是一個(gè)天文數(shù)字。本發(fā)明的音碼矩陣和分離結(jié)構(gòu)的詞庫，則可以毫不冗余地迅速排除掉不可能的組合，并進(jìn)一步得到包括語義在內(nèi)的詞匯信息。音碼矩陣還可容易地實(shí)現(xiàn)雙向搜索同效率。熟悉計(jì)算機(jī)編程的用戶，可參照本發(fā)明所提供的技術(shù)，結(jié)合實(shí)際情況加以應(yīng)用，必將提高其軟件的運(yùn)行效率。本發(fā)明的音序碼以及從語音到詞庫的快速搜索方法，其特征在于，以語音為入口線索，制定寓音形于一體的漢字內(nèi)部編碼--音序碼；以音碼為基礎(chǔ)，構(gòu)造音碼矩陣。表示拼音的音碼和表示聲調(diào)和字形的序碼，確定漢字音與形的一一對應(yīng)關(guān)系。在分離結(jié)構(gòu)詞庫的支持下，通過對音碼矩陣的查詢，快速確定矩陣中某一元素對應(yīng)兩音的組詞特征，從而保證音-詞轉(zhuǎn)換的高效性。本發(fā)明的音序碼以及從語音到詞庫的快速搜索方法，包括1、音碼漢語用拼音字母表示的基本音總計(jì)405個(gè)，寓音形信息的編碼方案基于漢字的下列分布特征漢字?jǐn)?shù)量N基本音個(gè)數(shù)1N≤3235122*32≥N＞324233*32≥N＞2*32944*32≥N＞3*3235N＞4*320如果對上列1-4類分布分別給以1-4個(gè)編碼，總共需要474個(gè)編碼，可用9位表示，命名為音碼，每一音碼內(nèi)的不同漢字用5位表示，命名為序碼，總計(jì)14位。仍然是用兩個(gè)字節(jié)表示一個(gè)漢字，并可與國標(biāo)碼高位置1保持一致。音碼表示了拼音，序碼表示了聲調(diào)和字形，使?jié)h字的音形信息完整地寓于一體。當(dāng)然，在實(shí)際進(jìn)行編碼時(shí)，音碼號不應(yīng)限于474，而應(yīng)該將0-511盡量用滿(見圖1)。編碼時(shí)，考慮到少量基本音下的漢字并不具備組詞功能，所以將它們合并到最后一個(gè)音碼(511號)。0-31號音碼留給圖形符號。圖1是音碼對應(yīng)的字符集，該圖給出全部一、二級漢字的音碼字符表。與國標(biāo)碼的差別之一是多音字在不同音碼中重復(fù)出現(xiàn)。2、音碼矩陣音碼的意義在于構(gòu)造音碼矩陣，由于漢語的非單音詞以雙音詞為主，這個(gè)音碼矩陣可為音詞轉(zhuǎn)換帶來極大的便利。所謂音碼矩陣就是一個(gè)512×512的方陣，方陣的每一結(jié)點(diǎn)(元素)用一位或兩位表示，僅占用31.25K或62.50K字節(jié)。沿著這個(gè)矩陣的某一行搜索，可找出以該音為第一音的全部詞匯，沿著這個(gè)矩陣的某一列搜索，可找出以該音為第二音的全部詞匯。如果有必要的話，不難把這一窮極搜索功能擴(kuò)展到指定音節(jié)在多字詞中的任一位置的情況。音碼矩陣以其高效的雙向搜索功能為基礎(chǔ)，其作用不僅在于便利語音與文字的轉(zhuǎn)換，而且是實(shí)現(xiàn)詞義庫與詞庫同構(gòu)的關(guān)鍵；是實(shí)現(xiàn)對語音識別進(jìn)行二次處理引導(dǎo)的保證；是實(shí)現(xiàn)分離結(jié)構(gòu)詞庫的基礎(chǔ)?？傊?，音碼矩陣是一種靈活高效的數(shù)據(jù)結(jié)構(gòu)，它充分體現(xiàn)了漢語的特點(diǎn)，能滿足漢語語音及文字處理的各種需要。本發(fā)明人所研制的理解處理軟件模塊，以及相應(yīng)的漢語詞庫、字義庫、詞義庫和音節(jié)感知庫，都是以音序碼為依托的。3、分離結(jié)構(gòu)的詞庫分離結(jié)構(gòu)的詞庫系由音碼矩陣、結(jié)點(diǎn)說明庫和擴(kuò)展庫三部分構(gòu)成。結(jié)點(diǎn)說明庫采用規(guī)范化結(jié)構(gòu)，對每個(gè)結(jié)點(diǎn)統(tǒng)一用兩字節(jié)進(jìn)行說明。正是這一規(guī)范化措施使詞義庫得以與詞庫同構(gòu)，從而實(shí)現(xiàn)了兩庫尋址的合一。引入擴(kuò)展庫，是節(jié)點(diǎn)說明庫得以規(guī)范化的關(guān)鍵。結(jié)點(diǎn)說明庫用2位來說明結(jié)點(diǎn)是否需要擴(kuò)展，即結(jié)點(diǎn)的類型說明。它是說明庫的固定部分。不需要擴(kuò)展的結(jié)點(diǎn)只有一個(gè)雙音詞，這是結(jié)點(diǎn)的大多數(shù)情況。這時(shí)，用10位標(biāo)明雙音詞的兩個(gè)序碼，用2位標(biāo)明它的級別，另外2位表明它是否兒化及能否插入。級別分4級0-一級常用詞，1-二級常用詞，2-專業(yè)詞匯，3-非常用詞。需要擴(kuò)展的結(jié)點(diǎn)分三種情況，一是有同音詞，二是多音詞，三是雙音詞與多音詞并存。這時(shí)，說明內(nèi)容為三類擴(kuò)展庫的地址。在結(jié)點(diǎn)說明庫中只需要給出雙字詞的兩個(gè)序碼。作為一種數(shù)據(jù)結(jié)構(gòu)，不僅與漢字輸入的“雙拼”方式(即對每一漢字的聲母和韻母各擊一次鍵的輸入方式)最相匹配。而且可以將雙字詞詞庫的存儲空間節(jié)省將近一半。下面列舉將本發(fā)明應(yīng)用于連續(xù)語音識別的漢語知識庫的設(shè)計(jì)與實(shí)施。具體說來，就是將本發(fā)明應(yīng)用于一個(gè)實(shí)際的旅游人機(jī)對話系統(tǒng)。以前，本發(fā)明人所在的中國科學(xué)院聲學(xué)研究所自然語言理解課題組業(yè)已投入使用的音節(jié)感知庫、字義庫、詞義庫面對的是真正的漢語自然語言，它結(jié)構(gòu)緊湊且不受詞匯量和題材限制。但是，在處理模糊度很大的語音數(shù)據(jù)的過程中，處理速度尚不能做到實(shí)時(shí)。本發(fā)明人對此進(jìn)行了改進(jìn)。具體到一個(gè)確定的語境——“旅游對話系統(tǒng)”——所用到的詞匯量以及其義項(xiàng)量必然大大減少，而涉及的句類也相應(yīng)簡化。這就提出對已有知識庫的改造問題，改造的目標(biāo)是使詞庫內(nèi)容和結(jié)構(gòu)適應(yīng)這一情況。具體措施之一是甩掉與本領(lǐng)域無關(guān)的詞匯和義項(xiàng)，適當(dāng)增加與旅游有關(guān)的專用詞匯；二是改進(jìn)庫的結(jié)構(gòu)，爭取以盡量快的速度為連續(xù)語音識別的回歸處理提供信息。本發(fā)明應(yīng)用于旅游人機(jī)對話系統(tǒng)時(shí)，進(jìn)行了庫結(jié)構(gòu)的設(shè)計(jì)與改造。原詞庫的結(jié)點(diǎn)表的結(jié)構(gòu)是以首字音碼為行，次字音碼為列組成的矩陣，例如0···········512(首字音碼)1·····512(次字音碼)其中每一元素構(gòu)成一個(gè)結(jié)點(diǎn)，其數(shù)值占1位，用來快速表達(dá)該結(jié)點(diǎn)下詞的有無信息。對詞庫信息的索引是靠查詢“結(jié)點(diǎn)表”實(shí)現(xiàn)的。如查詢到元素值為0(稱為零結(jié)點(diǎn))，說明該結(jié)點(diǎn)下無詞，只有元素值為1時(shí)，才索引到地址庫，進(jìn)一步得到詞匯信息的細(xì)節(jié)。知識庫改造方案的設(shè)計(jì)思想是基于詞匯量少的特點(diǎn)，將非零結(jié)點(diǎn)的二維結(jié)構(gòu)硬性轉(zhuǎn)化為一維有序排列。此方案的優(yōu)勢在于，尋址時(shí)間與音碼總數(shù)N無關(guān)，而僅與每行或每列的非零結(jié)點(diǎn)個(gè)數(shù)M有關(guān)(正比于log2M)，并能以較小代價(jià)做到行列搜索同效率。(1)新結(jié)點(diǎn)庫在原結(jié)點(diǎn)表的基礎(chǔ)上重新構(gòu)造而成。具體思路是將原結(jié)點(diǎn)表中一個(gè)結(jié)點(diǎn)占用1bit改為2bites，形成(512*512/4)字節(jié)的定長結(jié)構(gòu)。零結(jié)點(diǎn)仍表示無詞，非零結(jié)點(diǎn)則可用數(shù)值表示該結(jié)點(diǎn)的屬性。這種結(jié)構(gòu)對限定專業(yè)領(lǐng)域的搜詞非常有效。有時(shí)，僅憑類別信息，語義內(nèi)容實(shí)際上已經(jīng)直接取得，省去了進(jìn)入專用詞庫的時(shí)間。(2)結(jié)點(diǎn)索引庫由索引庫一和二兩部分構(gòu)成。索引庫一是從0號音碼到512號音碼并以定長2字節(jié)連續(xù)排列的索引塊，記錄的內(nèi)容為截止到某音碼的非零結(jié)點(diǎn)累計(jì)值(n)。索引庫二為非定長結(jié)構(gòu)，每個(gè)單元占4字節(jié)，它將以首字音碼為序，連續(xù)存儲結(jié)點(diǎn)庫中每一非零結(jié)點(diǎn)所對應(yīng)詞的第二字音碼(9位)及該結(jié)點(diǎn)下詞的個(gè)數(shù)n(7位)，其余2字節(jié)為該結(jié)點(diǎn)首詞序號NiO。此后的尋址均以NiO為基點(diǎn)。由“索引庫一”到“索引庫二”的查詢是這樣實(shí)現(xiàn)的從結(jié)點(diǎn)表得到了首、次字音碼，由首字音碼從“索引庫一”查到的結(jié)點(diǎn)地址(n×4)作為“索引庫二”的起始地址，由此可取出以該音碼為首字音碼的全部非零結(jié)點(diǎn)。由于次字音碼也是有序排列，從而可以快速查詢感興趣結(jié)點(diǎn)的信息。尋址分兩步進(jìn)行首先由首字音碼查出該音碼下的非零結(jié)點(diǎn)數(shù)和結(jié)點(diǎn)索引信息的起始地址；第二步查詢每個(gè)結(jié)點(diǎn)下的首詞詞號Ni和詞的個(gè)數(shù)，然后經(jīng)簡單計(jì)算即可得到“專用詞庫”的地址。查詢非零結(jié)點(diǎn)內(nèi)容</tables></tables>對反向搜索，庫結(jié)構(gòu)不變，存儲內(nèi)容只須將第一和第二音碼換位。數(shù)據(jù)可由程序自動生成。(3)專用詞庫可以得到詞級、獨(dú)立性、語義符號等信息。本發(fā)明音序碼以及從語音到詞庫的快速搜索方法的效果在于，漢字的音形信息完整地寓于一體的音序碼以及由此構(gòu)造的音碼矩陣，以接近極限的速度排除并不能構(gòu)成詞的拼音組合，減少了大量冗余訪問，實(shí)現(xiàn)了對詞庫的高效搜索。本發(fā)明中的音碼矩陣的輸入端是語音信息，其中包括語音識別的輸入和鍵盤輸入的拼音(及其變形)信息。通過對計(jì)算機(jī)所存儲的音碼矩陣的查詢，得到的是詞庫中相關(guān)詞匯的地址集。由于在實(shí)際應(yīng)用中輸入端面對的可能是模糊度很大的語音“陣列”，通過對結(jié)點(diǎn)表的查詢，可以從語音陣列中快速分離出單音節(jié)陣列和非單音詞。這一步不僅是效果最為顯著的解模糊處理，而且也是糾錯(cuò)處理的可靠基礎(chǔ)。本詞庫詞匯量小，裝入的單音詞也不多，這種條件下，經(jīng)過“結(jié)點(diǎn)庫”處理后，會出現(xiàn)較多的單音節(jié)陣列，非單音詞的大多數(shù)情況是同音詞很少甚至沒有。這就形成進(jìn)一步解模糊和糾錯(cuò)處理的良性基礎(chǔ)。從上述可看出，絕大多數(shù)情況根本不必進(jìn)入專用詞庫，即可得到單音陣列位置等所需信息。而一旦進(jìn)入專用詞庫，得到的詞以及語義，可全部送入后級進(jìn)行語義距離計(jì)算，進(jìn)一步作解模糊處理。采用本發(fā)明的意義在于既保證了遍歷性，又不做無用功。這種分離結(jié)構(gòu)的詞庫不但可進(jìn)行正向搜索，而且可進(jìn)行反向搜索，這為語音識別提供了預(yù)測與反饋的有效手段。在實(shí)際解模糊處理過程中，任意選取三句語料，進(jìn)行搜詞速度測試。條件是詞庫中總詞數(shù)為1000，每句話字長11-17，每個(gè)音的模糊候選集為15-30不等。要求對詞庫作遍歷性搜索，找出全部有關(guān)詞匯。測試結(jié)果是第一句1.26秒，第二句1.38秒，第三句0.71秒權(quán)利要求1.一種音序碼以及從語音到詞庫的快速搜索方法，其特征在于，以語音為入口線索，制定寓音形于一體的漢字內(nèi)部編碼--音序碼；以音碼為基礎(chǔ)，構(gòu)造音碼矩陣；表示拼音的音碼和表示聲調(diào)和字形的序碼，確定漢字形與音的一一對應(yīng)關(guān)系；在分離結(jié)構(gòu)詞庫的支持下，通過對音碼矩陣的查詢，快速確定矩陣中某一元素對應(yīng)兩音的組詞特征，從而保證音-詞的高效轉(zhuǎn)換。2.如權(quán)利要求1所述的音序碼以及從語音到詞庫的快速搜索方法，其特征在于，所述的音序碼系漢語拼音字母表示的基本音405個(gè)，寓音形信息的編碼方案基于漢字的下列分布特征漢字?jǐn)?shù)量N基本音個(gè)數(shù)1N≤3235122*32≥N＞324233*32≥N＞2*32944*32≥N＞3*3235N＞4*320若對上列1-4類分布分別給以1-4個(gè)編碼，總共需要474個(gè)編碼，可用9位表示，命名為音碼，每一音碼內(nèi)的不同漢字用5位表示，命名為序碼，總計(jì)14位；仍然是用兩個(gè)字節(jié)表示一個(gè)漢字，并可與國標(biāo)碼高位置1保持一致；音碼表示了拼音，序碼表示了聲調(diào)和字形信息，使?jié)h字的音形信息完整地寓于一體。3.如權(quán)利要求2所述的音序碼以及從語音到詞庫的快速搜索方法，其特征在于，在實(shí)際進(jìn)行編碼時(shí)，音碼號不應(yīng)限于474，而應(yīng)該將0-511盡量用滿；對多余音碼的分配以組詞能力的強(qiáng)弱為條件。4.如權(quán)利要求3所述的音序碼以及從語音到詞庫的快速搜索方法，其特征在于，構(gòu)造音碼矩陣；該矩陣以首字音碼為行，次字音碼為列，每個(gè)元素構(gòu)成一個(gè)結(jié)點(diǎn)，其數(shù)值占一位，用來表達(dá)該結(jié)點(diǎn)下詞的有無信息；對詞庫信息的快速搜索是靠查詢結(jié)點(diǎn)表實(shí)現(xiàn)的；如查詢到元素值為0(稱之為零結(jié)點(diǎn))，說明該結(jié)點(diǎn)下無詞；只有元素值為1時(shí)，才索引到地址庫，進(jìn)一步獲取詞匯信息的細(xì)節(jié)。5.如權(quán)利要求1或4所述的音序碼以及從語音到詞庫的快速搜索方法，其特征在于，所述音碼矩陣系一個(gè)512×512的方陣，方陣的每一結(jié)點(diǎn)(元素)可用一位或兩位表示，僅占用31.25K或62.50K字節(jié)；沿著這個(gè)矩陣的某一行搜索，可找出以該音為第一音的全部詞匯，沿著這個(gè)矩陣的某一列搜索，可找出以該音為第二音的全部詞匯；如果有必要的話，不難把這一窮極搜索功能擴(kuò)展到指定音節(jié)在多字詞中的任一位置的情況。6.如權(quán)利要求1所述的音序碼以及從語音到詞庫的快速搜索方法，其特征在于，所說的分離結(jié)構(gòu)的詞庫，包括有音碼矩陣、結(jié)點(diǎn)說明庫和擴(kuò)展庫三部分。7.如權(quán)利要求6所述的音序碼以及從語音到詞庫的快速搜索方法，其特征在于，結(jié)點(diǎn)說明庫采用規(guī)范化結(jié)構(gòu)，對每個(gè)結(jié)點(diǎn)統(tǒng)一用兩字節(jié)進(jìn)行說明。正是這一規(guī)范化措施使詞義庫得以與詞庫同構(gòu)，從而實(shí)現(xiàn)了兩庫尋址的合一；結(jié)點(diǎn)說明庫得以規(guī)范化的關(guān)鍵是引入擴(kuò)展庫；結(jié)點(diǎn)說明庫系用2位來說明結(jié)點(diǎn)是否需要擴(kuò)展，是說明庫的固定部分。8.如權(quán)利要求7所述的音序碼以及從語音到詞庫的快速搜索方法，其特征在于，所述的結(jié)點(diǎn)包括需要擴(kuò)展的結(jié)點(diǎn)和不需要擴(kuò)展的結(jié)點(diǎn)。9.如權(quán)利要求8所述的音序碼以及從語音到詞庫的快速搜索方法，其特征在于，需要擴(kuò)展的結(jié)點(diǎn)分三種情況，一是有同音詞，二是多音詞，三是雙音詞與多音詞并存；這時(shí)，說明內(nèi)容為三類擴(kuò)展庫的地址。10.如權(quán)利要求8所述的音序碼及從語音到詞庫的快速搜索方法，其特征在于，不需要擴(kuò)展的結(jié)點(diǎn)只有一個(gè)雙音詞，這是結(jié)點(diǎn)的大多數(shù)情況；這時(shí)，用10位標(biāo)明雙音詞的兩個(gè)序碼，用2位標(biāo)明它的級別，另外2位表明它是否兒化及能否插入；級別分4級0-一級常用詞，1-二級常用詞，2-專業(yè)詞匯，3-非常用詞。全文摘要本發(fā)明涉及中文信息處理領(lǐng)域，尤其涉及一種音序碼以及從語音到詞庫的快速搜索方法。其特點(diǎn)在于，以語音為入口線索，制定寓音形于一體的漢字內(nèi)部編碼；以音碼為基礎(chǔ)，構(gòu)造音碼矩陣；表示拼音的音碼和表示聲調(diào)和字形的序碼，確定漢字音與形的一一對應(yīng)關(guān)系；在分離結(jié)構(gòu)詞庫的支持下，通過對音碼矩陣的查詢，快速確定矩陣中某一元素對應(yīng)兩音的組詞特征，從而保證音—詞轉(zhuǎn)換的高效性。文檔編號G06F3/023GK1156853SQ9610121公開日1997年8月13日申請日期1996年2月7日優(yōu)先權(quán)日1996年2月7日發(fā)明者黃曾旸,杜燕玲申請人:中國科學(xué)院聲學(xué)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃曾**;杜燕玲
技術(shù)所有人：中國科學(xué)院聲學(xué)研究所
我是此專利的發(fā)明人

上一篇：采用脊電阻感應(yīng)陣列的指紋檢測儀的制作方法
上一篇：虛擬多工微處理器的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

音序碼以及從語音到詞庫的快速搜索方法