亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

快速字詞識別方法

文檔序號:6416329閱讀:427來源:國知局
專利名稱:快速字詞識別方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種快速字詞識別的方法,特別涉及一種快速識別西班牙衍生字的方法,這種方法應(yīng)用于程序化的電子裝置(諸如電子字典)或軟件(諸如文字處理程序或電腦字典)。本發(fā)明亦可用于進(jìn)行拼字校正。
對于許多類型的電子字典或電腦字典,如果使用者輸入的查詢字詞無法在既有的數(shù)據(jù)庫中找到,使用者將會得到拒絕的回應(yīng),諸如“查無此字”,或是得到拼法或拼音最接近的字。然而,除了拼錯以外,有時(shí)候查詢字詞可能是基本字詞-即所謂的根詞-的衍生字或復(fù)合字,而并未收錄于數(shù)據(jù)庫之中。因此,類似上述的回應(yīng)似乎不妥而且毫無用處。
然而在諸如西班牙文和法文的歐洲語文中,每一個單詞通常具有許多不同的衍生字;特別是西班牙文,一個動詞可以有超過一百種變化型。在西班牙文中,字匯可以被分類為根詞、復(fù)合字、衍生字及其組合?;旧?,根詞本身是基本的字詞;復(fù)合字是由兩個以上的根詞所構(gòu)成;而衍生字則是由改變根詞的中詞綴、或后詞綴、或兩者都改變而得。目前,通常的電子字典僅收錄根詞和它們一些常用的衍生字而已,這很明顯地?zé)o法滿足實(shí)際使用所需。
上述問題的一個簡單的解決方法是將根詞的所有衍生字都收入電子字典中。但是,這種方法需要大量的存儲空間,將所有西班牙字匯儲存起來。然而這樣既不經(jīng)濟(jì),又需要很多功夫來輸入相關(guān)資料。因此,在諸如西班牙電子字典的電子裝置或諸如西班牙文字處理程序的電腦軟件中,如果可以提供一種需要較少存儲空間,而更有效率的方法來識別、搜尋和校正字詞,將會有極大的效益與實(shí)用價(jià)值。
有鑒于傳統(tǒng)字詞識別裝置或軟件的缺點(diǎn),本發(fā)明提供一種快速的字詞識別方法。
本發(fā)明的目的在于提供一種西班牙衍生字的快速搜尋方法。
再者,根據(jù)本發(fā)明,為電腦或文字處理軟件提供一種西班牙衍生字快速搜尋的編碼方法。
本發(fā)明也提供一種有效率的方法,檢查西班牙字詞拼法,并提供與查詢字詞拼法或拼音接近的候選字,作為拼錯的查詢字詞的校正。
本發(fā)明所揭示的方法主要包含下列步驟
(1)收集并分類從西班牙根詞得到衍生字的所有規(guī)則;(2)用一種編碼方法編碼這些規(guī)則;及(3)排序編碼后的規(guī)則,并形成一個查詢表。
此外,根據(jù)本發(fā)明,對每個查詢字詞的搜尋程序如下(1)先在根詞數(shù)據(jù)庫中查找該查詢字詞,如果找到,即輸出關(guān)于該字的儲存資料并停止;否則(2)在詞綴查詢表中撿查該字的詞綴,如果找到任何根詞,即輸出關(guān)于該根詞的儲存資料并停止;否則(3)以提供與查詢字詞拼法或拼音接近的字的方式來校正拼法。
又,依據(jù)本發(fā)明,每一個可能的后詞綴式衍生字的搜尋可以字詞倒轉(zhuǎn)的方式實(shí)施;其中先將查詢字詞的字母順序顛倒,如此一來即可從倒轉(zhuǎn)的字首開始取得所有可能的后詞詞,不過這些后詞綴是次序顛倒的。接著從先前準(zhǔn)備的查詢表中,與已知的后詞綴比較所得的后詞綴。依照最大匹配原則,保留匹配的后詞綴,找出對應(yīng)的根詞后詞綴,并將之代換查詞字詞中的后詞綴,得到可能的候選根詞。最后,再繼續(xù)查找這些候選根詞是否存在基本數(shù)據(jù)庫中。


圖1為本發(fā)明中形成一個具有將西班牙衍生字還原成根詞的規(guī)則查詢表的程序圖。
圖2為本發(fā)明中西班牙電子字典典型字詞搜尋程序的流程圖。
圖3為描述本發(fā)明中如何識別衍生字的子程序功能方塊圖。
圖4A為搜尋查詢字詞的后詞綴還原規(guī)則的子程序流程圖。
圖4B為搜尋查詢字詞的中詞綴還原規(guī)則的子程序流程圖。
圖4C為從候選字中確認(rèn)可能的根詞的子程序流程圖。
圖5A、5B、5C和5D為從本產(chǎn)品-牛津電子字典-中擷取的屏幕,顯示以“quiero”為例從輸入、搜尋到輸出的過程。
為解決識別西班牙衍生字的問題,所有西班牙字詞的衍生字變化規(guī)則已經(jīng)依照其詞性分門別類。下列是各種詞性約一些變化規(guī)則例子(1)名詞--子音結(jié)尾的字詞,復(fù)數(shù)+s--輔音結(jié)尾的字詞,復(fù)數(shù)+es--不規(guī)則變化例“z”->“ces”;
Rubí-> Rubíes;Bistrí->bisturíes;Bambu->bambues;Jersey->jerseys;等等。
(2)形容詞形容詞有陰性、陽性之分,因此,例如每個以o結(jié)尾的形容詞的詞尾都可有四種形式,分別是+‘o’,+‘a(chǎn)’,+‘os’和+‘a(chǎn)s’。而一些以輔音結(jié)尾的形容詞除原形外還可有+‘a(chǎn)’,+‘a(chǎn)s’,+‘es’的形式。
(3)副詞西班牙文中有一類副詞是由形容詞變成陰性,再加‘mente’而來的,因此它們的詞尾變化為,‘o’->‘a(chǎn)mente’。
(4)動詞這是最復(fù)雜的情形。西班牙文當(dāng)中,每個動詞都可以有一百多種變化形式。除去現(xiàn)代西班牙文中罕見不用的,也有將近六十種衍生字,而這些有很多是不規(guī)則的變化形式,不僅有詞尾的不規(guī)則,也有詞中的不規(guī)則。
表一列有本發(fā)明所收集的部分詞綴變化規(guī)則。
表一
西班牙文中約有二千四百種這樣的變化規(guī)則,其中包括詞尾變化規(guī)則(后詞綴的變化)、詞中變化規(guī)則(中詞綴的變化)和詞尾、詞中同時(shí)變化的規(guī)則。于是可以形成一種查詢的表格,包括所有的還原規(guī)則,對于某一特定的衍生字的中詞綴(或后詞綴),可以找到原來字詞的所有可能中詞綴(或后詞綴)(圖1中的步驟2)。換言之對于每一個衍生字中詞綴(或后詞綴),將會有數(shù)個相關(guān)連的根詞中詞綴(或后詞綴)。特別的是,查詢表格中的后詞綴字母順序經(jīng)過反轉(zhuǎn),而這些反轉(zhuǎn)后的后詞綴依照西班牙文字母順序排列(步驟4)。中詞綴也經(jīng)過同樣的字母排序(步驟6)。這樣會大大地加速后續(xù)的搜尋程序。在本發(fā)明之一較佳實(shí)施例中,還以一種為經(jīng)過字母排序后的衍生字后詞綴編碼的方式對這些規(guī)則進(jìn)行編碼(步驟8),而不只是簡單地將這些規(guī)則匯集成一個大表格。于是,所形成的查詢表格包括三個部分一個是為后詞綴還原表所作的按字母順序排列的索引表(如表二,其中列舉了部分的索引規(guī)則),另一個是后詞綴還原規(guī)則表(如表三,其中列舉了部分的后詞綴還原規(guī)則),而第三個是中詞綴還原規(guī)則表(如表四,其中列舉了部分的中詞綴還原規(guī)則)。
表二
表三
表四
>
依據(jù)此表,對于西班牙文字典或電子字典的基本數(shù)據(jù)庫中不能直接找到的特定字詞,便可以應(yīng)用表格還原規(guī)則中所給的所有可能中詞綴(或后詞綴)代換衍生字中詞綴(或后詞綴),建構(gòu)該字的所有候選根詞,并撿查是否這些候選字詞中任何一個可以在基本的根詞數(shù)據(jù)庫中找到。
本發(fā)明也可以同樣地應(yīng)用在西班牙電子字典、西班牙文字處理軟件或同類事物上;然而,為更加具體起見,本說明書為說明發(fā)明內(nèi)容,將特別以西班牙電子字典作為例子進(jìn)行說明。
圖2為本發(fā)明中西班牙電子字典典型字詞搜尋程序的流程圖。首先,使用者將被要求輸入一個查詢字詞。
(步驟10)收到查詢字詞后,電子字典將會查找它的基本數(shù)據(jù)庫,尋求拼法相同的字詞(步驟12),而該數(shù)據(jù)庫通常包含根詞及其常用衍生字。倘若數(shù)據(jù)庫有該查詢字詞,則電子字典將直接輸出關(guān)于該字的資料,然后終止搜尋程序并等待使用者的下一個指令(步驟22)。
倘若數(shù)據(jù)庫沒有該查詢字詞,衍生字識別子程序即開始運(yùn)作(步驟14),如圖3所示。首先,載入詞綴查詢表格(步驟26),接著后詞綴與中詞綴的搜尋比較將)順序執(zhí)行(步驟28和步驟30),其結(jié)果最后將與基本數(shù)據(jù)庫相比較(步驟32)。
圖4A和4B分別為中詞綴式和后詞綴式衍生字的搜尋程序流程圖。根據(jù)本發(fā)明的較佳實(shí)拖例,查詢字詞的字母順序?qū)⒃谒褜ず笤~綴式衍生字之前被反轉(zhuǎn)(步驟36),因?yàn)檫@將方便后詞綴的擷取。反轉(zhuǎn)后的后詞綴的第一個字母將用以定義查詢表格中的搜尋區(qū)段(步驟38)。接著使用一種搜尋方法,在該搜尋區(qū)段中找出與反轉(zhuǎn)的后詞綴前n個字母相同的后詞綴,其中n是從1開始順序增加的自然數(shù)(步驟40和步驟44)。一旦沒有相同的后詞綴可在表格中找到,程序即終止(步驟42)。于是,如果找得到任何后詞綴,便得到一組衍生字后詞綴的還原規(guī)則;(步驟46)否則,查詢字詞便被視為沒有后詞綴變化(步驟52)。
但是,在這個和后續(xù)的程序中,最大匹配原則將被用于確定可能的詞綴。此原則陳述如果查詢字詞在某類詞綴(后詞綴和中詞綴)搜尋程序中,有數(shù)個可能的衍生字詞綴在查詢表格中被找到,只有具有最多字母的衍生字詞綴被保留以提供還原規(guī)則。
因此,在上述的后詞綴式的衍生字搜尋之后,如果有的話,僅會有一條變化規(guī)則留下,并且應(yīng)用此規(guī)則將相關(guān)連的可能根詞后詞綴取代查詢字詞中的后詞綴,形成一組可能的根詞(步驟50)。
接著,根據(jù)圖4B,從查詢字詞拿走第一個字母和后詞綴(步驟54)。再次,對這些中詞綴字母進(jìn)行中詞綴還原表的搜尋(步驟56和步驟60)。于是,如果有的話,將得到另一組變化規(guī)則(步驟62)。再次應(yīng)用最大匹配原則,獲得還原規(guī)則(步驟64),以代換先前找到的候選根詞中的中詞綴(步驟66)。否則,查詢字詞便被視為沒有中詞綴變化(步驟68)。
最后,結(jié)合上述兩種搜尋(后詞綴和中詞綴)的結(jié)果,形成一組新的可能根詞,以供進(jìn)一步與基本數(shù)據(jù)庫的比較。如圖4C所示的,此比較從新一組的字詞中挑出每一個候選字,在基本數(shù)據(jù)庫中查找,直到所有的字詞都已撿查(步驟70、72、74和76)。如果其中任何一個可以被識別,便輸出該根詞及其相關(guān)資料;如果找到數(shù)個,便將這些候選字都輸出,供使用者選擇(步驟80)。
否則,查詢字詞便被送至拼字校正子程序(步驟82),因?yàn)闊o法形成可能的根詞,也就是找不到后詞綴或中詞綴的還原規(guī)則。拼法或拼音最接近的字將輸出給使用者選擇(步驟20)。
整個程序終結(jié)時(shí)輸出查詢字詞相關(guān)資料,不論是可能的根詞或拼字校正后的字詞(步驟22)。
以下將以‘quiero’作為例子,解釋本發(fā)明如何進(jìn)行。
假設(shè)查詢字詞‘quiero’并未收錄于字典的基本數(shù)據(jù)庫,則該字詞將暫時(shí)被視為可能的衍生字候選字,并進(jìn)行下列的步驟。
開始時(shí),將對查詢字詞進(jìn)行后詞綴搜尋(圖4A)。根據(jù)本發(fā)明,‘quiero’將為后詞綴搜尋而被反轉(zhuǎn)成‘oreiup’(步驟36),所以現(xiàn)在的“后詞綴”可能是‘o’、‘or’、‘ore’等等,他們是原來后詞綴的反轉(zhuǎn)。因?yàn)榈谝粋€字母是‘o’,所以,根據(jù)本發(fā)明之一較佳實(shí)施例,查詢表格中介于還原規(guī)則第74和第96條之間的‘o-’區(qū)段將被選出(步驟38),以供相同“后詞綴”進(jìn)行快速的資料查找。
首先,反轉(zhuǎn)字的第一個字母‘o’將被桃出,與查詢表格中選出的區(qū)段比較(步驟40),因此便找到還原規(guī)則{‘o’->‘a(chǎn)r’,‘er’,‘ir’,‘r’}。接著下一個字母‘r’將被附加至‘o’形成‘or’(步驟44)以供進(jìn)一步比較。但是,‘or’并無任何還原規(guī)則,此衍生字后詞綴搜尋程序便停止(步驟43)。
因而,在此例子當(dāng)中,根據(jù)最大匹配原則,‘o’是唯一可能的“后詞綴”,這也就意味著‘o’是候選衍生字的可能后詞綴。該程序接著將原查詢字詞中的后詞綴‘o’的還原規(guī)則,替換為‘a(chǎn)r’,‘er’,‘ir’和‘r’。最后,即形成第一組可能的根詞{quierar,quierer,quierir,quierr},與基本數(shù)據(jù)庫做進(jìn)一步比較(步驟50)。
下一個步驟是中詞綴搜尋(圖4B)。首先,去掉查詢字詞中的第一個字母和最大匹配的后詞綴‘o’,取得中詞綴‘uier’。此搜尋先拿‘u’進(jìn)行匹配(步驟56),但是‘u’沒有任何還原規(guī)則。于是,‘i’便被拿來比較(步驟58)并找到還原規(guī)則{‘i’->‘e’}(步驟56)。然而,此搜尋程序要繼續(xù)執(zhí)行到無法找到其它還原規(guī)則之時(shí)(步驟60)。做完所有比較之后,發(fā)現(xiàn)找到兩條還原規(guī)則{‘i’…>‘e’}和{‘ie’…>‘i’,‘e’}(步驟62)。根據(jù)最大匹配原則,‘ie’才是最大匹配的中詞綴。所以,只有還原規(guī)則{‘ie’…>‘i’,‘e’}被保留,提供后續(xù)代換之用(步驟64)。最后,便用‘i’和‘e’代換第一維的字詞中的‘ie’形成第二組可能的根詞(步驟66)。
現(xiàn)在,完整的可能根詞集合是先前第一和第二組的可能根詞的聯(lián)合集,也就是{quierar,quierer,quierir,quierr,querar,querer,querir,querr,quirar,quirer,quirir,quirr}。
此新集合中的字詞將一一的桃出(圖4C中的步驟70),以進(jìn)行基本數(shù)據(jù)庫的查找(步驟72),直到所有的候選字詞都被撿查過(步驟74)。在本例子中,只有找到‘querer’是‘quiero’合理的根詞(步驟78),所以便將它輸出絡(luò)使用者(步驟80)。
圖5A是當(dāng)使用者用本產(chǎn)品-牛津西班牙電子字典-輸入查詢字詞‘quiero’時(shí),屏幕上所出現(xiàn)的圖像。在其同時(shí),電子字典列出拼法最接近的字詞。圖5B為輸入結(jié)束的畫面。圖5C顯示了電子字典正在搜尋時(shí)屏幕顯示的信息。圖5D顯示了搜尋輸出的結(jié)果。
藉由本發(fā)明的幫助,可以省下電子字典中許多的存儲器。例如,牛津西班牙電子字典僅收錄18361個字詞,占161KB,即可識別500000個字詞。否則,收錄所有500000個字詞將需要4MB的ROM,所節(jié)省的效益達(dá)到接近廿五倍。
雖然上文僅對一特定實(shí)施例提供完整的說明,但是,本發(fā)明的范圍不應(yīng)受其限制。由于本發(fā)明的精神在于詞綴還原規(guī)則查詢表格的建立,以及相搭配的搜尋方法,所以可以對該查詢表格進(jìn)行各種修改,而其它的搜尋方法也可拿來運(yùn)用。本發(fā)明的范圍應(yīng)由所附權(quán)利要求書來界定。
權(quán)利要求
1.一種衍生字識別的方法,該方法至少包含建立詞匯數(shù)據(jù)庫;產(chǎn)生第一表格,所述第一表格包含多個衍生字后詞綴,而所述衍生字后詞綴都與數(shù)個代換的根詞后詞綴相關(guān)聯(lián);產(chǎn)生第二表格,所述第二表格包含多個衍生字中詞綴,而所述衍生字中詞綴都與數(shù)個代換的根詞中詞綴相關(guān)聯(lián);輸入查詢字詞;從該查詢字詞中擷取與所述第一表格相匹配且具有最多字母的衍生字后詞綴;選取與擷取的衍生字后詞綴相關(guān)聯(lián)的多個代換后詞綴;將擷取的衍生字后詞綴,置換成所述多個代換后詞綴,以產(chǎn)生第一組字詞;從所述查詢字詞中,擷取與所述第二表格相匹配且具有最多字母的衍生字中詞綴;選取與擷取的衍生字中詞綴相關(guān)聯(lián)的多個代換中詞綴;將擷取的衍生字中詞綴,置換成所述多個代換中詞綴,以產(chǎn)生第二組字詞;結(jié)合所述第一組字詞和所述第二組字詞,以產(chǎn)生多個候選字詞并從中產(chǎn)生根詞;及輸出該根詞。
2.如權(quán)利要求1所述的方法,其特征在于,上述詞匯數(shù)據(jù)庫至少包含西班牙根詞。
3.如權(quán)利要求1所述的方法,其特征在于,上述第一表格依照所述衍生字后詞綴的字母順序排序。
4.如權(quán)利要求3所述的方法,其特征在于,上述排序的衍生字后詞綴還分成多個群組,并依照所述群組的分類加以編碼。
5.如權(quán)利要求1所述的方法,其特征在于,上述第二表格依照所述衍生字中詞綴的字母順序排序。
6.如權(quán)利要求5所述的方法,其特征在于,上述排序的衍生字中詞綴還分成多個群組,并依照所述群組的分類加以編碼。
7.如權(quán)利要求1所述的方法,其特征在于,上述第一表格中的所述衍生字后詞綴字母順序被反轉(zhuǎn),而且該衍生字后詞綴擷取時(shí),其字母順序也被反轉(zhuǎn)。
8.如權(quán)利要求1所述的方法,其特征在于,所述擷取的衍生字后詞綴的獲得,是在所述第一表格中對所有衍生字后詞綴進(jìn)行查找之后,保留找到并具有最多字母。
9.如權(quán)利要求1所述的方法,其特征在于,所述擷取的衍生字中詞綴的獲得,是在所述第二表格中對所有衍生字中詞綴進(jìn)行查找之后,保留找到并具有最多字母。
10.一種衍生字識別的方法,該方法至少包含建立詞匯數(shù)據(jù)庫;產(chǎn)生第一表格,所述第一表格包含多個衍生字后詞綴,而所述衍生字后詞綴都與數(shù)個代換的根詞后詞綴相關(guān)聯(lián);產(chǎn)生第二表格,所述第二表格包含多個衍生字中詞綴,而所述衍生字中詞綴都與數(shù)個代換的根詞中詞綴相關(guān)聯(lián);輸入查詢字詞;從所述查詢字詞中擷取與所述第二表格匹配且具有最多字母的衍生字中詞綴;選取與擷取的衍生字中司綴相關(guān)聯(lián)的數(shù)個代換中詞綴;將擷取的衍生字中詞綴,置換成所述多個代換中詞綴,以產(chǎn)生第一組字詞;從該查詢字詞中,擷取與所述第一表格相匹配且具有最多字母的衍生字后詞綴;選取與擷取的衍生字后詞綴相關(guān)聯(lián)的多個代換后詞綴;將擷取的衍生字后詞綴,置換成所述多個代換后詞綴,以產(chǎn)生第二組字詞;結(jié)合所述第一組字詞和所述第二組字詞,以產(chǎn)生多個候選字詞并從其中,產(chǎn)生根詞;及輸出該根詞。
11.如權(quán)利要求10所述的方法,其特征在于,上述詞匯數(shù)據(jù)庫至少包含西班牙根詞。
12.如權(quán)利要求10所述的方法,其特征在于,上述第一表格依照所述衍生字后詞綴的字母順序排序。
13.如權(quán)利要求12所述的方法,其特征在于,上述排序的衍生字后詞綴還分成多個群組,并依照所述群組的分類加以編碼。
14.如權(quán)利要求10所述的方法,其特征在于,上述第二表格依照所述衍生字中詞綴的字母順序排序。
15.如權(quán)利要求14所述的方法,其特征在于,上述排序的衍生字中詞綴還分成多個群組,并依照所述群組的分類加以編碼。
16.如權(quán)利要求1所述的方法,其特征在于,上述第一表格中的所述衍生字后詞綴字母順序被反轉(zhuǎn),而且所述共有的衍生字后詞綴擷取時(shí),其字母順序也被反轉(zhuǎn)。
17.如權(quán)利要求1所述的方法,其特征在于,所述擷取的共有的衍生字后詞綴的獲得,是在所述第一表格中對所有衍生字后詞綴進(jìn)行查找之后,保留找到并具有最多字母。
18.如權(quán)利要求1所述的方法,其特征在于,所述擷取的衍生字中詞綴的獲得,是在所述第二表格中對所有衍生字中詞綴進(jìn)行查找之后,保留找到并具有最多字母。
全文摘要
本發(fā)明提供一種快速字詞識別的方法,尤其是用于西班牙衍生字的識別。本發(fā)明主要的特征在于提供一種快速識別衍生字,使得西班牙電子字典能在不增加存儲器負(fù)擔(dān)的情況下儲存所有西班牙詞匯(根調(diào)和衍生字)的方法。所有從根詞到衍生字的轉(zhuǎn)換規(guī)則均被收錄、分類并反轉(zhuǎn),以給出還原規(guī)則。這些還原規(guī)則經(jīng)過排序和編碼,收錄于一個搜尋用的查詢表格。本發(fā)明也提供一種通用于該查詢表格的快速搜尋方法。
文檔編號G06F17/30GK1268712SQ9910418
公開日2000年10月4日 申請日期1999年3月24日 優(yōu)先權(quán)日1999年3月24日
發(fā)明者何代水, 紀(jì)金東 申請人:英業(yè)達(dá)集團(tuán)(上海)電子技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1