專利名稱:建立輸入法數(shù)據(jù)庫的系統(tǒng)及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種建立數(shù)據(jù)庫的系統(tǒng)及其方法,尤其涉及一種建立輸入法 數(shù)據(jù)庫之系統(tǒng)及其方法。
背景技術(shù):
從數(shù)字裝置發(fā)明以來,輸入法的使用就變得非常普遍,幾乎只要操作數(shù)
字裝置就會用到輸入法,不同的輸入法需要不同的輸入法數(shù)據(jù)庫,例如英 文輸入法需要英文輸入法數(shù)據(jù)庫。雖然輸入法數(shù)據(jù)庫需求的內(nèi)容較為單純, 但是在建立輸入法數(shù)據(jù)庫時, 一般都是采用逐字建立輸入法數(shù)據(jù)庫的方式, 仍然需要付出相當(dāng)高的人力成本。
就輸入法數(shù)據(jù)庫需求的內(nèi)容而言,與詞典數(shù)據(jù)庫所儲存的內(nèi)容有異曲同 工之處,因為詞典數(shù)據(jù)庫已儲存有輸入法數(shù)據(jù)庫所需求的內(nèi)容。詞典數(shù)據(jù)庫 建立時,也是采用逐字建立詞典數(shù)據(jù)庫的方式,不同的語言就有不同的詞典 數(shù)據(jù)庫,詞典數(shù)據(jù)庫除了儲存有輸入法數(shù)據(jù)庫所需求的內(nèi)容,還多了音標(biāo), 詞性,以及例句...等,這些都是輸入法數(shù)據(jù)庫所不需要的。
雖然輸入法數(shù)據(jù)庫與詞典數(shù)據(jù)庫在建立時都相當(dāng)耗時,而且現(xiàn)有的詞典 數(shù)據(jù)庫內(nèi)容也非常完備,但是卻無法利用現(xiàn)有的詞典數(shù)據(jù)庫直接轉(zhuǎn)換成輸入 法數(shù)據(jù)庫,主要的原因就是在于詞典數(shù)據(jù)庫的建置格式與輸入法數(shù)據(jù)庫所需 求的建置格式不盡相同,并且還多了許多輸入法數(shù)據(jù)庫在利用上所不需要的 其它相關(guān)內(nèi)容,即使現(xiàn)有的詞典數(shù)據(jù)庫內(nèi)容已臻完備,卻不能被再轉(zhuǎn)用,為 了避免重復(fù)浪費建置時間和人力,需要有可以直接將詞典數(shù)據(jù)庫轉(zhuǎn)換為輸入 法數(shù)據(jù)庫的技術(shù)手段的必要。
綜上所述,可知先前技術(shù)中長期以來一直存在無法利用現(xiàn)有詞典數(shù)據(jù)庫 直接轉(zhuǎn)換為輸入法數(shù)據(jù)庫的問題,因此有必要提出改進的技術(shù)手段,來解決 此一問題。
發(fā)明內(nèi)容
有鑒于先前技術(shù)存在的無法利用現(xiàn)有詞典數(shù)據(jù)庫直接轉(zhuǎn)換為輸入法數(shù)據(jù) 庫的問題,本發(fā)明特提供一種建立輸入法數(shù)據(jù)庫的系統(tǒng)及其方法。
本發(fā)明所提供的建立輸入法數(shù)據(jù)庫的系統(tǒng),用以從詞典數(shù)據(jù)庫進行數(shù)據(jù)
轉(zhuǎn)換,其包含讀取模塊,用以從詞典數(shù)據(jù)庫加載單詞,其中每個單詞均具 有對應(yīng)的單詞內(nèi)容;搜尋模塊,搜尋單詞內(nèi)容之至少一個詞條,當(dāng)遇到區(qū)隔 記號時,分開獲取詞條;加載模塊,加載詞條中之至少一個候選項,當(dāng)遇到 分隔字符時,分開獲取候選項;及輸出模塊,用以整合候選項并輸出至該輸 入法數(shù)據(jù)庫。
本發(fā)明所提供的建立輸入法數(shù)據(jù)庫的方法,用以從詞典數(shù)據(jù)庫進行數(shù)據(jù) 轉(zhuǎn)換,其包含下列步驟從詞典數(shù)據(jù)庫加載單詞,其中每個單詞均具有對應(yīng) 的單詞內(nèi)容;搜尋單詞內(nèi)容中之至少一個詞條,當(dāng)遇到區(qū)隔記號時,分開獲 取詞條;加載詞條中之至少一個候選項,當(dāng)遇到分隔字符時,分開獲取候選 項;及整合候選項并輸出至該輸入法數(shù)據(jù)庫。
本發(fā)明所提供的系統(tǒng)與方法如上,與先前技術(shù)之間的差異在于本發(fā)明通 過從詞典數(shù)據(jù)庫的單詞內(nèi)容中獲取至少一個詞條,再從詞條加載至少一個候 選項,最后輸出至輸入法數(shù)據(jù)庫的技術(shù)手段,可以解決先前技術(shù)中所存在的 無法利用現(xiàn)有詞典數(shù)據(jù)庫直接轉(zhuǎn)換為輸入法數(shù)據(jù)庫的問題。
通過上述的技術(shù)手段,本發(fā)明可以達成資源共享且能夠快速建立輸入法 數(shù)據(jù)庫的技術(shù)效果。
圖1為本發(fā)明建立輸入法數(shù)據(jù)庫的方法流程圖。 圖2為本發(fā)明建立輸入法數(shù)據(jù)庫的系統(tǒng)方塊圖。 圖3A為應(yīng)用本發(fā)明之實施例之方法流程圖。 圖3B為應(yīng)用本發(fā)明之實施例示意圖。
具體實施例方式
以下將配合圖式及實施例來詳細說明本發(fā)明之實施方式,由此對本發(fā)明 如何應(yīng)用技術(shù)手段來解決技術(shù)問題并達成技術(shù)效果的實現(xiàn)過程能充分理解并 據(jù)以實施。
本發(fā)明是提供一種建立輸入法數(shù)據(jù)庫的系統(tǒng)及其方法,以下將同時搭配
r圖1」之方法流程圖以及「圖2」之系統(tǒng)方塊圖進行說明。
本發(fā)明之建立輸入法數(shù)據(jù)庫的系統(tǒng)200,應(yīng)用在以現(xiàn)有的詞典數(shù)據(jù)庫250 直接轉(zhuǎn)換,以建立輸入法數(shù)據(jù)庫,本發(fā)明并不限于何種語言的詞典數(shù)據(jù)庫 250,由于不同的詞典數(shù)據(jù)庫250可能有不同的儲存格式,但是只要詞典數(shù)據(jù) 庫250中基本上具備可供區(qū)分詞條以及分隔候選項的特定格式,均可以應(yīng)用 本發(fā)明來進行輸入法凄t據(jù)庫的轉(zhuǎn)換。
雖然詞典數(shù)據(jù)庫250的具體格式并不一致,但是如果針對現(xiàn)有的各種詞 典數(shù)據(jù)庫250的儲存格式加以分析,會發(fā)現(xiàn)詞典數(shù)據(jù)庫250的儲存格式都會 有一些規(guī)則可循,例如詞典數(shù)據(jù)庫250的每個單詞均具有對應(yīng)的單詞內(nèi)容, 單詞內(nèi)容中具有詞條,詞條中會具有候選項,有些詞典數(shù)據(jù)庫250使用區(qū)隔 記號來區(qū)分單詞內(nèi)容中的詞條,或者使用分隔字符來區(qū)分詞條中的候選項, 而區(qū)隔記號與分隔字符的形式并不一定。因此,本發(fā)明即是在分析出這些原 則的前提下進行輸入法數(shù)據(jù)庫的轉(zhuǎn)換,實際的轉(zhuǎn)換過程會因為不同詞典數(shù)據(jù) 庫250的儲存格式而有差異,但基本上轉(zhuǎn)換的原理原則均相同,以下將做進 一步說明。
首先,讀取模塊210會從詞典數(shù)據(jù)庫250加載單詞,處理的過程依照運 作流程的設(shè)計,可以是采取批次加載或者是采取循序加載,本發(fā)明并未對加 載的方式進行限定,其中每個單詞均具有對應(yīng)的單詞內(nèi)容(步驟110)。例 如單詞為"use",則單詞內(nèi)容為說明"use"的內(nèi)容,單詞內(nèi)容可能是KK音標(biāo)、 詞性、例句,以及解釋...等,這些單詞內(nèi)容的出現(xiàn)順序會依照不同的詞典數(shù) 據(jù)庫250可能會有所變動。
當(dāng)讀取模塊210自詞典數(shù)據(jù)庫250加載單詞后,為了將單詞內(nèi)容中的各 個詞條分開以方便加載模塊230進行獲取候選項之操作,搜尋模塊220會搜 尋單詞內(nèi)容之至少一個詞條,當(dāng)遇到區(qū)隔記號時,以區(qū)隔記號為分界點,分開獲取詞條(步驟120);所以若是在單詞的單詞內(nèi)容中,搜尋模塊220沒 有搜尋到區(qū)隔記號,則直接獲取詞條。
其中,區(qū)隔記號是一個記號,因為有些詞典數(shù)據(jù)庫250在單詞內(nèi)容中使 用區(qū)隔記號來區(qū)分各個詞條,所以區(qū)隔記號可能位于詞條的起始處,區(qū)隔記 號也可能可以位于詞條與詞條之間,區(qū)隔記號的形式可以為有順序性之?dāng)?shù)字, 例如1、 2、 3..., A、 B、 C...等,或是區(qū)隔記號的形式為不具順序性之符號, 例如◎、令...等。若是在詞典數(shù)據(jù)庫250使用區(qū)隔記號來區(qū)分單詞內(nèi)容中 的各個詞條,則詞條可能接續(xù)在區(qū)隔記號之后,例如單詞為"use",則單詞 內(nèi)容為說明"use,,的內(nèi)容,在"use"的單詞內(nèi)容中,假設(shè)使用區(qū)隔記號而且區(qū)隔 記號以有順序性之?dāng)?shù)字來表示,即為"1.用,使用2.發(fā)揮;行使3.…", 其中,"用,使用"即為一個詞條,"發(fā)揮;行使"為另一個詞條。
接著,為了獲取候選項以做為建立輸入法數(shù)據(jù)庫的數(shù)據(jù),加載模塊230 會加載單詞內(nèi)容的各個詞條中之至少一個候選項,當(dāng)遇到分隔字符時,以分 隔字符為分界點,分開獲取候選項(步驟130);若是在詞條中,加載模塊 230沒有搜尋到分隔字符,則直接獲取候選項。
其中,分隔字符是一個符號,若是在單詞內(nèi)容的詞條中使用分隔字符來 區(qū)分各個候選項,則分隔字符是選自于逗號、頓號及分號的群組,例如"," 或"、,,或";,,或",與;,,...等,分隔字符是詞條中用以分隔候選項,例如 單詞為"use",詞條為"用,使用,,,則在詞條中被分隔字符(逗號)分隔的"用" 以及"使用,,即為候選項,因為以分隔字符為分界點,所以若是詞條中有一個 分隔字符,則加載模塊230可以獲取到兩個候選項,而若是詞條中有二個分 隔字符,則加載模塊230可以獲取到三個候選項,加載模塊230所加載的候 選項,以各個詞條的先后順序則做為候選項的先后順序。
最后,輸出模塊240會整合該些候選項,并輸出至該輸入法數(shù)據(jù)庫(步 驟140)。
值得說明的是,經(jīng)過分析現(xiàn)有的眾多詞典數(shù)據(jù)庫250會發(fā)現(xiàn)為了詳細說 明單詞內(nèi)容中的候選項,可能會將欲詳細說明的內(nèi)容以成對特殊字符標(biāo)記在 候選項之后,但是對輸入法數(shù)據(jù)庫而言只需要候選項,并不需要候選項的其 它說明,所以本發(fā)明之建立輸入法數(shù)據(jù)庫的系統(tǒng)200在輸出模塊240整合該
7些候選項,并輸出至該輸入法數(shù)據(jù)庫(步驟140 )之前,更包含刪除模塊232 用以刪除各個候選項中由成對特殊字符組成的內(nèi)容;其中,成對特殊字符一 定是自左到右(或上到下)以成對出現(xiàn),例如"『』","()","{},,...等,至 于刪除的方式則可以是自左到右,或是由上到下的進行刪除。
另外,太長的候選項幾乎都是說明一個動作,或是一段話,那么這個候 選項的字符數(shù)一定比較多,在輸入法數(shù)據(jù)庫中是用不到的,所以當(dāng)候選項的 字符長度超過一個預(yù)設(shè)字符長度時,刪除模塊232還用以刪除超過預(yù)設(shè)字符 長度的候選項,本發(fā)明并未對預(yù)設(shè)字符長度做進一步限制,預(yù)設(shè)字符長度可 依實際需求加以設(shè)定。至于先刪除各個候選項中由成對特殊字符組成的內(nèi)容 或是先刪除超過預(yù)設(shè)字符長度的候選項,本發(fā)明并未對此做進一步限定。
r圖3A」為應(yīng)用本發(fā)明之實施例之方法流程圖與「圖3B」為應(yīng)用本發(fā) 明之實施例示意圖,說明一個詞典數(shù)據(jù)庫250經(jīng)由執(zhí)行本發(fā)明之后,使用所 獲取到的候選項建立該輸入法數(shù)據(jù)庫。
由于本發(fā)明并不限于何種語言的詞典數(shù)據(jù)庫250,在此實施例詞典數(shù)據(jù) 庫250是以"英漢詞典數(shù)據(jù)庫,,為例,說明轉(zhuǎn)換單一單詞至輸入法數(shù)據(jù)庫,假 設(shè)"英漢詞典數(shù)據(jù)庫,,具有區(qū)隔記號用以分隔單詞內(nèi)容中的詞條,還有分隔字 符用以分隔詞條中的候選項,而且區(qū)隔記號是有順序之?dāng)?shù)字,但本發(fā)明并不 限于僅能處理此格式的詞典數(shù)據(jù)庫250。
首先,讀取模塊210已經(jīng)完成自"英漢詞典數(shù)據(jù)庫"依序加載至少一個單 詞310,其中每個單詞310均具有對應(yīng)的單詞內(nèi)容320 (步驟110),以單詞 310為"use,,為例,在"英漢詞典數(shù)據(jù)庫,,中儲存有單詞內(nèi)容320,在此實施例 單詞內(nèi)容320有音標(biāo)、詞性、解釋…等,經(jīng)由搜尋模塊220搜尋單詞內(nèi)容 320之至少一個詞條,當(dāng)遇到區(qū)隔記號時,以區(qū)隔記號為分界點,分開獲取 詞條(步驟120 ),因為在此實施例中區(qū)隔記號是有順序性的數(shù)字1到5,所 以搜尋模塊220搜尋到5個詞條。
接著,加載模塊230會加載單詞內(nèi)容的各個詞條之至少一個候選項330, 當(dāng)遇到分隔字符時,以分隔字符為分界點,分開獲取候選項330(步驟130), 在此實施例,分隔字符是逗號",,,,而且位于區(qū)隔記號1與區(qū)隔記號2之后 的詞條,都有以分隔字符分隔的候選項330,位于區(qū)隔記號3到區(qū)隔記號5之后的詞條,則因為詞條中不具分隔字符,所以直接獲取候選項330,"使用" 即為一個l夷選項330的例子。
經(jīng)由加載模塊230加載候選項330之后,則刪除模塊232會進行刪除各 個候選項330中由成對特殊字符組成的內(nèi)容(步驟132)(如「圖3B」下方 虛線所示),若是假設(shè)預(yù)設(shè)字符長度為5字符,則在此實施例沒有超過預(yù)設(shè) 字符長度的候選項330 (步驟134 ),所以刪除模塊232不需刪除超過預(yù)設(shè)字 符長度的候選項330。
以單詞310為"use"為例,得到的候選項330為"用,使用,發(fā)揮,行使, 耗費,利用,對待",該些候選項330經(jīng)由輸出模塊240整合之后,輸出至該 輸入法數(shù)據(jù)庫(步驟140)。
值得一提的是,雖然在本實施例中,執(zhí)行刪除模塊232刪除候選項330
但并非用以限制本發(fā)明,本發(fā)明之建立輸入法數(shù)據(jù)庫的系統(tǒng)200可視需求執(zhí) 行刪除模塊232。
綜上所述,可知本發(fā)明與先前技術(shù)之間的差異在于具有通過從詞典數(shù)據(jù) 庫的單詞內(nèi)容中獲取至少一個詞條,再從詞條加載至少一個候選項,最后輸 出至輸入法數(shù)據(jù)庫的技術(shù)手段,藉由此一技術(shù)手段可以解決先前技術(shù)所存在 無法利用現(xiàn)有詞典數(shù)據(jù)庫直接轉(zhuǎn)換為輸入法數(shù)據(jù)庫的問題,進而達成資源共 享且能夠快速建立輸入法數(shù)據(jù)庫的技術(shù)效果。
雖然本發(fā)明所提供的實施方式如上,但所述內(nèi)容并非用以直接限定本發(fā) 明之專利保護范圍。任何本發(fā)明所屬技術(shù)領(lǐng)域中具有通常知識者,在不脫離 本發(fā)明所提供的精神和范圍的前提下,可以在實施的形式上及細節(jié)上作些許 之更動。本發(fā)明之專利保護范圍,仍須以所附之權(quán)利要求書所界定者為準(zhǔn)。
權(quán)利要求
1、一種建立輸入法數(shù)據(jù)庫的系統(tǒng),用以從一詞典數(shù)據(jù)庫進行數(shù)據(jù)轉(zhuǎn)換,其包含一讀取模塊,用以從該詞典數(shù)據(jù)庫加載單詞,其中每個單詞均具有對應(yīng)的一單詞內(nèi)容;一搜尋模塊,用以搜尋該單詞內(nèi)容之至少一詞條,當(dāng)遇到一區(qū)隔記號時,分開獲取該些詞條;一加載模塊,用以加載各該詞條中之至少一候選項,當(dāng)遇到一分隔字符時,分開獲取該些候選項;及一輸出模塊,用以整合該些候選項并輸出至該輸入法數(shù)據(jù)庫。
2、 如權(quán)利要求1所述的建立輸入法數(shù)據(jù)庫的系統(tǒng),其中該區(qū)隔記號的形 式為有順序性的數(shù)字,或是該區(qū)隔記號的形式為不具順序性的符號。
3、 如權(quán)利要求1所述的建立輸入法數(shù)據(jù)庫的系統(tǒng),其中該分隔字符是選 自于逗號、頓號及分號的群組。
4、 如權(quán)利要求1所述的建立輸入法數(shù)據(jù)庫的系統(tǒng),其中該加載模塊加載 的該些候選項,以各該詞條的先后順序作為該些候選項的先后順序。
5、 如權(quán)利要求1所述的建立輸入法數(shù)據(jù)庫的系統(tǒng),其中該系統(tǒng)更包含一 刪除模塊,用以刪除各該候選項中由一成對特殊字符組成的內(nèi)容。
6、 如權(quán)利要求5所述的建立輸入法數(shù)據(jù)庫的系統(tǒng),其中該刪除模塊更包 含用以刪除超過一預(yù)設(shè)字符長度的該候選項。
7、 一種建立輸入法數(shù)據(jù)庫的方法,用以從一詞典數(shù)據(jù)庫進行數(shù)據(jù)轉(zhuǎn)換, 其包含下列步驟從該詞典數(shù)據(jù)庫加載單詞,其中每個單詞均具有對應(yīng)的一單詞內(nèi)容;搜尋該單詞內(nèi)容中的至少一詞條,當(dāng)遇到一區(qū)隔記號時,分開獲取該些 詞條;加載各該詞條中的至少一候選項,當(dāng)遇到一分隔字符時,分開獲取該些 候選項;及整合該些候選項并輸出至該輸入法數(shù)據(jù)庫。
8、 如權(quán)利要求7所述的建立輸入法數(shù)據(jù)庫的方法,其中該區(qū)隔記號的形 式為有順序性的數(shù)字,或該區(qū)隔記號的形式為不具順序性的符號。
9、 如權(quán)利要求7所述的建立輸入法數(shù)據(jù)庫的方法,其中該分隔字符是選 自于逗號、頓號及分號的群組。
10、 如權(quán)利要求7所述的建立輸入法數(shù)據(jù)庫的方法,其中更包含加載的 該些候選項,以各該詞條的先后順序作為該些候選項的先后順序的步驟。
11、 如權(quán)利要求7所述的建立輸入法數(shù)據(jù)庫的方法,其中該方法更包含 刪除各該候選項中由一成對特殊字符組成的內(nèi)容。
12、 如權(quán)利要求7所述的建立輸入法數(shù)據(jù)庫的方法,其中該方法更包含 刪除超過一預(yù)設(shè)字符長度的該候選項。
全文摘要
一種建立輸入法數(shù)據(jù)庫的系統(tǒng)及其方法,其通過從詞典數(shù)據(jù)庫的單詞內(nèi)容中獲取至少一個詞條,再從詞條加載至少一個候選項,最后輸出至該輸入法數(shù)據(jù)庫的技術(shù)手段,可以解決先前技術(shù)中所存在的無法利用現(xiàn)有詞典數(shù)據(jù)庫直接轉(zhuǎn)換為輸入法數(shù)據(jù)庫的問題,由此可以達成資源共享且能夠快速建立輸入法數(shù)據(jù)庫的技術(shù)效果。
文檔編號G06F17/30GK101452455SQ20071019514
公開日2009年6月10日 申請日期2007年11月30日 優(yōu)先權(quán)日2007年11月30日
發(fā)明者韜 周, 邱全成 申請人:英業(yè)達股份有限公司