專利名稱:計算機新詞學(xué)習(xí)方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明是涉及一種計算機新詞學(xué)習(xí)方法與系統(tǒng),特別涉及一種針對文件中任意相鄰單字均無法構(gòu)成計算機可辨識詞匯的部分進行分析,藉以得到新詞并增加計算機可辨識詞匯的數(shù)量的計算機新詞學(xué)習(xí)方法與系統(tǒng)。
在英文、法文或德文等拼音文字的文件中,由于各個字之間均有空白加以分隔,故并不存在對句子進行分割才能了解其真正含義的問題。然而,在中文、日文或韓文等,各個字之間并無空白加以分隔的文件中,若無法對文件的內(nèi)容加以切割,將無法了解其真正的含義為何,而造成判讀上的錯誤。
所謂的“斷詞”,是指將由成串中文、日文或韓文等的字所組成的文句進行分割,使文句被切割成許多有意義的詞匯。在許多語言處理的應(yīng)用上,如校正、翻譯或語音辨識等,都必需要先對文件進行斷詞后,才能夠作進一步的處理。
隨著計算機科技的發(fā)展,已經(jīng)有以計算機來斷詞的方法與系統(tǒng)出現(xiàn)。與以人工來進行斷詞相比較,計算機斷詞可以大幅減少所需的時間。然而,計算機斷詞的困難處之一,在于當(dāng)其碰到其無法辨識的詞匯時,若不以人工輸入新的字匯,其將無法作適當(dāng)?shù)奶幚怼?br>
針對上述問題,本發(fā)明的目的為提供一種計算機新詞學(xué)習(xí)方法與系統(tǒng),其可自動學(xué)習(xí)文件中的新詞匯。
本發(fā)明的另一目的為提供一種計算機新詞學(xué)習(xí)方法與系統(tǒng),其可做為計算機詞匯數(shù)據(jù)庫更新主維護的基礎(chǔ)。
為達上述目的,依本發(fā)明的計算機新詞學(xué)習(xí)方法包括一子詞記錄程序、一第一刪除程序以及一第二刪除程序。子詞記錄程序是將記錄于一無詞集的至少一無詞部分分解成至少一子詞,并將所得到的子詞記錄在一子詞集中,其中無詞部分是指在一計算機可讀取的文件中,任何相鄰單字均無法構(gòu)成計算機可辨識的詞匯的部分。第一刪除程序是分別計算各子詞的出現(xiàn)次數(shù),并將出現(xiàn)次數(shù)小于一預(yù)定值的子詞自子詞集中刪除。第二刪除程序是自子詞集中依序選取不相同的一第一子詞與一第二子詞,當(dāng)?shù)谝蛔釉~被包含于第二子詞中,且第一子詞的出現(xiàn)次數(shù)不大于第二子詞時,將第一子詞自子詞集刪除,藉以由該子詞集中產(chǎn)生計算機可辨識的新詞。
本發(fā)明還揭露一種計算機新詞學(xué)習(xí)系統(tǒng),其包括一子詞記錄模塊、一第一刪除模塊以及一第二刪除模塊。子詞記錄模塊是將記錄在一無詞集的至少一無詞部分分解成至少一子詞,并將該子詞記錄于一子詞集中,其中無詞部分是指在一計算機可讀取的文件中,任何相鄰單字均無法構(gòu)成計算機可辨識的詞匯的部分。第一刪除模塊是分別計算各該等子詞的出現(xiàn)次數(shù),并將出現(xiàn)次數(shù)小于一預(yù)定值的子詞自子詞集中刪除。第二刪除模塊則自子詞集中依序選取不相同的一第一子詞與一第二子詞,當(dāng)?shù)谝蛔釉~被包含在第二子詞中,且第一子詞的出現(xiàn)次數(shù)不大于第二子詞時,將第一子詞自子詞集刪除,藉以由子詞集中產(chǎn)生計算機可辨識的新詞。
以下將參照相關(guān)附圖,說明依本發(fā)明較佳實施例的計算機新詞學(xué)習(xí)方法與系統(tǒng),其中相同的元件將以相同的參照符號加以說明。
圖1為一流程圖,顯示依本發(fā)明較佳實施例的計算機新詞學(xué)習(xí)方法的流程。
圖2為一示意圖,顯示依本發(fā)明較佳實施例的計算機新詞學(xué)習(xí)方法的結(jié)構(gòu)。
參照圖1,依本發(fā)明較佳實施例的計算機新詞學(xué)習(xí)方法1是先進行一詞辨識程序11,以對一計算機可讀取的文件51進行斷詞處理。如前所述,所謂“斷詞”是指將由成串中文、日文或韓文等的字所組成的文句進行分割,使文句被切割成許多有意義的詞匯。在本實施例中,是使用一種公知的“字典統(tǒng)計式斷詞法”來對文件進行斷詞,亦即,利用詞匯組成機率與詞匯長度等對被切割的文件進行評估,以求得最佳的斷詞結(jié)果。然而,需注意者,熟悉該項技術(shù)者可輕易地采用其它斷詞法來對文件進行斷詞,而不脫離本發(fā)明的精神與范疇。
接著,進行無詞部分記錄程序12,以將文件51中的無詞部分記錄于一無詞集52中。在本發(fā)明中,所謂的“無詞部分”,是指在文件51中,任何相鄰單字均無法構(gòu)成計算機可辨識的詞匯的部分。例如,若文件51中具有如下的句子“王明昨天拜訪李小華”在本句中,由于“王明”與“李小華”這兩個部分中,單字的各種組合(如,“李小華”可以有“李小”、“小華”、“李小華”等三種組合)均無法被系統(tǒng)辨識,因此會成為兩個“無詞部分”。亦即,此句的斷詞結(jié)果會成為“王明昨天拜訪李小華”“王明”與“李小華”這兩個無詞部分將會成為單字的組合。
接著,在子詞記錄程序13中,無詞集52各無詞部分會被分解成至少一子詞,并將分解所得的子詞記錄于一子詞集53中。以前面的“王明昨天拜訪李小華”這句為例,在子詞記錄程序13中,無詞部分“李小華”會被分解為“李小”、“小華”與“李小華”三個子詞。換言之,子詞記錄程序13會將每一個無詞部分的可能子詞都分解出來。
接著,第一刪除程序14分別計算各個子詞的出現(xiàn)次數(shù),并將出現(xiàn)次數(shù)小于一預(yù)定值的子詞自該子詞集中刪除。在此程序中,所謂各個子詞的“出現(xiàn)次數(shù)”,可指各子詞于原本無詞集52中的出現(xiàn)次數(shù),亦可指各子詞于子詞集53中的出現(xiàn)次數(shù)。本領(lǐng)域的技術(shù)人員可視實際狀況選擇任一種計算方法。
當(dāng)某個子詞在整份文件51中的出現(xiàn)次數(shù)過少時,表示其在文件51中是偶而出現(xiàn),故可將其自子詞集53中刪除。例如,若“王明”在整份文件51中僅出現(xiàn)一次,而“李小華”在整份文件中出現(xiàn)了十幾次,則很明顯地,“王明”并非一個具有記錄價值的新詞,其僅為一個偶而出現(xiàn)的子詞,而“李小華”這個子詞相對于文件51而言,由于出現(xiàn)次數(shù)眾多,故為一具有記錄價值的新詞。
至于預(yù)定值的大小,則可視實際狀況加以設(shè)定。例如,可以人工輸入的方式更改預(yù)設(shè)值,或依文件51的字數(shù),來機動性調(diào)整預(yù)定值的大小。如此將可針對不同的文件,設(shè)定不同的新詞學(xué)習(xí)標準。
在第二刪除程序15中,是先自該子詞集53依序選取不相同的一第一子詞與一第二子詞。然后,當(dāng)?shù)谝蛔釉~被包含于第二子詞中,且第一子詞的出現(xiàn)次數(shù)不大于第二子詞時,將第一子詞自子詞集53刪除。例如,當(dāng)選取“李小”為第一子詞,“李小華”為第二子詞時,由于“李小”是包含于“李小華”中,故“李小”這個子詞的出現(xiàn)次數(shù)會等于“李小華”這個子詞的出現(xiàn)次數(shù)。在這種情況下,即將“李小”自子詞集53刪除,僅留下“李小華”這個子詞。相同的道理,由于“小華”這個子詞也包含于“李小華”中,故其也會自子詞集53刪除。如此,將可刪除包含于較長子詞的較短子詞,保留長度較長的子詞。
接著,在判斷程序16中,若子詞集53為空集,亦即,在第一刪除程序14與第二刪除程序15中已將所有的子詞都刪除,則結(jié)束整個依本發(fā)明較佳實施例的計算機新詞學(xué)習(xí)方法1的流程。若子詞集53中尚有子詞,則進行第三刪除程序17,僅保留出現(xiàn)次數(shù)最多的子詞,刪除所有其它出現(xiàn)次數(shù)較少的子詞。如此,一次將只會產(chǎn)生一個新詞。
在產(chǎn)生新詞之后,即進行無詞部分分割程序18,以將包括了新詞的無詞部分刪除,并將包括了新詞的無詞部分中,新詞以外的部分獨立出來形成新的無詞部分。亦即,當(dāng)包括了新詞的無詞部分中,位于新詞之前的單字數(shù)量為兩個以上時,將無詞部分中位于新詞之前的部分視為另一無詞部分,并加入至無詞集52中。另一方面,當(dāng)包括了新詞的無詞部分中,位于新詞之后的單字數(shù)量為兩個以上時,則將無詞部分中位于新詞之后的部分視為另一無詞部分,并將其加入至無詞集52。
例如,若文件51中另有一句“他坐在李小華的前面”,由于整句都沒有計算機可辨識的詞匯,故全句九個字構(gòu)成了一個無詞部分,且其中包括了剛產(chǎn)生的新詞“李小華”。針對此一無詞部分,在無詞部分分割程序18中,此一無詞部分就會被刪除,并被分割成兩個新的無詞部分,即新詞“李小華”之前的“他坐在”三個字,以及新詞“李小華”之后的“的前面”三個字。
在無詞部分分割程序18之后,即進行子詞集清空程序19,以將子詞集53清空,并回到子詞記錄程序13重新進行子詞分解的動作。
經(jīng)由前述的流程,將可找出文件51中所有可能的新詞,并且不會影響到計算機原本可辨識的詞,以及文件51中既有存在的詞。因此,其可有效地對計算機可讀取的文件進行更適當(dāng)?shù)臄嘣~處理。
至于所產(chǎn)生的新詞,可視實際狀況使其成為新的計算機可辨識詞匯。例如,若產(chǎn)生的新詞為“電子商務(wù)”,即考慮將此一近年來才產(chǎn)生的新詞匯加入計算機的詞匯數(shù)據(jù)庫,使其成為新的計算機可辨識詞匯。如此,將有助于計算機詞匯數(shù)據(jù)庫的更新與維護。
參照圖2,依本發(fā)明較佳實施例的計算機新詞學(xué)習(xí)系統(tǒng)2包括一詞辨識模塊21、一無詞部分記錄模塊22、一子詞記錄模塊23、一第一刪除模塊24、一第二刪除模塊25、一第三刪除模塊26以及一無詞部分分割模塊27。在本實施例中,各模塊均為存儲于一計算機裝置中的程序模塊,其是記錄在一存儲裝置,如存儲器、硬盤機或光盤機等中,使一中央處理單元讀取各模塊之后,即可進行如前所述的計算機新詞學(xué)習(xí)方法1的流程,以找出文件51中的新詞。然而,需注意者,熟悉該項技術(shù)者亦可對其進行等效的修改與進一步的應(yīng)用,例如將各模塊制作成為集成電路,以將其內(nèi)建于如電子字典或個人數(shù)位助理等電子裝置中,以對文件51進行如前所述計算機新詞學(xué)習(xí)方法1的斷詞與產(chǎn)生新詞的工作,而不超出本發(fā)明的精神與范疇。
計算機新詞學(xué)習(xí)系統(tǒng)2可自一存儲裝置(如存儲器)或記錄媒體(如磁盤片或光盤片)中讀取文件51,或經(jīng)由網(wǎng)際網(wǎng)絡(luò)自另一網(wǎng)絡(luò)伺服器讀取文件51。進行詞辨識時所需的詞匯數(shù)據(jù)庫30亦可存儲于一計算機可讀取的存儲裝置或記錄媒體中,以便計算機新詞學(xué)習(xí)系統(tǒng)2的存取。計算機新詞學(xué)習(xí)系統(tǒng)2所產(chǎn)生的新詞亦可加入至詞匯數(shù)據(jù)庫30中,以對其進行維護與更新的動作。
依本發(fā)明的計算機新詞學(xué)習(xí)方法與系統(tǒng)是利用計算機技術(shù)來對計算機可讀取文件進行斷詞,以將文件中的文句正確切割成有意義的詞匯。其有助于許多語言處理的應(yīng)用,如校正、翻譯或語音辨識等科技的進一步發(fā)展。
依本發(fā)明的計算機新詞學(xué)習(xí)方法與系統(tǒng)可自動學(xué)習(xí)文件中的新詞匯,以對文件作適當(dāng)?shù)臄嘣~處理。
依本發(fā)明的計算機新詞學(xué)習(xí)方法與系統(tǒng)可做為計算機詞匯數(shù)據(jù)庫更新及維護的基礎(chǔ)。
以上所述僅為舉例性,而非為限制性者。任何未脫離本發(fā)明的精神與范疇,而對其進行的等同修改或變更,均應(yīng)包含在權(quán)利要求書所限定的范圍中。
權(quán)利要求
1.一種計算機新詞學(xué)習(xí)方法,包含以下程序一子詞記錄程序,是將記錄在一無詞集的至少一無詞部分分解成至少一子詞,并將該子詞記錄于一子詞集中,其中該無詞部分是指在一計算機可讀取的文件中,任何相鄰單字均無法構(gòu)成計算機可辨識的詞匯的部分;一第一刪除程序,是分別計算各該等子詞的出現(xiàn)次數(shù),并將出現(xiàn)次數(shù)小于一預(yù)定值的子詞自該子詞集中刪除;以及一第二刪除程序,是自該子詞集中依序選取不相同的一第一子詞與一第二子詞,當(dāng)該第一子詞被包含于該第二子詞中,且該第一子詞的出現(xiàn)次數(shù)不大于該第二子詞時,將該第一子詞自該子詞集刪除,藉以由該子詞集中產(chǎn)生計算機可辨識的新詞。
2.如權(quán)利要求1所述的計算機新詞學(xué)習(xí)方法,還包含一詞辨識程序,是對一文件進行詞辨識處理;以及一無詞部分記錄程序,是當(dāng)該文件中具有至少一無詞部分時,將該無詞部分記錄于該無詞集中。
3.如權(quán)利要求1所述的計算機新詞學(xué)習(xí)方法,還包含一判斷程序,是判斷該子詞集是否為空集,并當(dāng)該子詞集為空集時,結(jié)束該計算機新詞學(xué)習(xí)方法的流程。
4.如權(quán)利要求1所述的計算機新詞學(xué)習(xí)方法,還包含一第三刪除程序,是在該第二刪除程序之后,還將該子詞集中出現(xiàn)次數(shù)最多的子詞以外的子詞刪除。
5.如權(quán)利要求1所述的計算機新詞學(xué)習(xí)方法,還包含一無詞部分分割程序,包括將包含該新詞的無詞部分自該無詞集移除;當(dāng)包含該新詞的無詞部分中,位于該新詞之前的單字數(shù)量為兩個以上時,將該無詞部分中位于該新詞之前的部分視為另一無詞部分,并將其加入至該無詞集中;且當(dāng)包含該新詞的無詞部分中,位于該新詞之后的單字數(shù)量為兩個以上時,將該無詞部分中位于該新詞之后的部分視為另一無詞部分,并將其加入至該無詞集中。
6.如權(quán)利要求1所述的計算機新詞學(xué)習(xí)方法,還包含一子詞集清空程序,是清空該子詞集并回到該子詞記錄程序。
7.如權(quán)利要求1所述的計算機新詞學(xué)習(xí)方法,其中該預(yù)定值為2。
8.一種計算機新詞學(xué)習(xí)系統(tǒng),包含一子詞記錄模塊,是將記錄于一無詞集的至少一無詞部分分解成至少一子詞,并將該子詞記錄于一子詞集中,其中該無詞部分是指在一計算機可讀取的文件中,任何相鄰單字均無法構(gòu)成計算機可辨識的詞匯的部分;一第一刪除模塊,是分別計算各該等子詞的出現(xiàn)次數(shù),并將出現(xiàn)次數(shù)小于一預(yù)定值的子詞自該子詞集中刪除;以及一第二刪除模塊,是自該子詞集中依序選取不相同的一第一子詞與一第二子詞,當(dāng)該第一子詞被包含于該第二子詞中,且該第一子詞的出現(xiàn)次數(shù)不大于該第二子詞時,將該第一子詞自該子詞集刪除,藉以由該子詞集中產(chǎn)生計算機可辨識的新詞。
9.如權(quán)利要求8所述的計算機新詞學(xué)習(xí)系統(tǒng),還包含一詞辨識模塊,是對一文件進行詞辨識處理;以及一無詞部分記錄模塊,是當(dāng)該文件中具有至少一無詞部分時,將該無詞部分記錄于該無詞集中。
10.如權(quán)利要求8所述的計算機新詞學(xué)習(xí)系統(tǒng),還包含一第三刪除模塊,是將該子詞集中出現(xiàn)次數(shù)最多的子詞以外的子詞刪除。
11.如權(quán)利要求8所述的計算機新詞學(xué)習(xí)系統(tǒng),還包含一無詞部分分割模塊,其中將包含該新詞的無詞部分自該無詞集移除;當(dāng)包含該新詞的無詞部分中,位于該新詞之前的單字數(shù)量為兩個以上時,將該無詞部分中位于該新詞之前的部分視為另一無詞部分,并將其加入至該無詞集中;且當(dāng)包含該新詞的無詞部分中,位于該新詞之后的單字數(shù)量為兩個以上時,將該無詞部分中位于該新詞之后的部分視為另一無詞部分,并將其加入至該無詞集中。
12.如權(quán)利要求8所述的計算機新詞學(xué)習(xí)系統(tǒng),其中該預(yù)定值為2。
13.一種計算機新詞學(xué)習(xí)系統(tǒng),包含一中央處理單元;以及一存儲裝置,其是存儲至少一程序碼,使該中央處理單元在讀取該程序碼后,可執(zhí)行以下程序一子詞記錄程序,是將記錄于一無詞集的至少一無詞部分分解成至少一子詞,并將該子詞記錄于一子詞集中,其中該無詞部分是指于一計算機可讀取的文件中,任何相鄰單字均無法構(gòu)成計算機可辨識的詞匯的部分;一第一刪除程序,是分別計算各該等子詞的出現(xiàn)次數(shù),并將出現(xiàn)次數(shù)小于一預(yù)定值的子詞自該子詞集中刪除;以及一第二刪除程序,是自該子詞集中依序選取不相同的一第一子詞與一第二子詞,當(dāng)該第一子詞被包含于該第二子詞中,且該第一子詞的出現(xiàn)次數(shù)少于該第二子詞時,將該第一子詞自該子詞集刪除,藉以由該子詞集中產(chǎn)生計算機可辨識的新詞。
14.如權(quán)利要求13所述的計算機新詞學(xué)習(xí)系統(tǒng),其中該中央處理單元在讀取該程序碼后,還執(zhí)行一詞辨識程序,是對一文件進行詞辨識處理;以及一無詞部分記錄模塊,是當(dāng)該文件中具有至少一無詞部分時,將該無詞部分記錄于該無詞集中。
15.如權(quán)利要求13所述的計算機新詞學(xué)習(xí)系統(tǒng),其中該中央處理單元于讀取該程序碼后,還執(zhí)行一判斷程序,是判斷該子詞集是否為空集,并當(dāng)該子詞集為空集時,結(jié)束該計算機新詞學(xué)習(xí)方法的流程。
16.如權(quán)利要求13所述的計算機新詞學(xué)習(xí)系統(tǒng),其中該中央處理單元于讀取該程序碼后,還執(zhí)行一第三刪除程序,是將該子詞集中出現(xiàn)次數(shù)最多的子詞以外的子詞刪除。
17.如權(quán)利要求13所述的計算機新詞學(xué)習(xí)系統(tǒng),其中該中央處理單元于讀取該程序碼后,還執(zhí)行一無詞部分分割程序,包括將包含該新詞的無詞部分自該無詞集移除;當(dāng)包含該新詞的無詞部分中,位于該新詞之前的單字數(shù)量為兩個以上時,將該無詞部分中位于該新詞之前的部分視為另一無詞部分,并將其加入至該無詞集中;且當(dāng)包含該新詞的無詞部分中,位于該新詞之后的單字數(shù)量為兩個以上時,將該無詞部分中位于該新詞之后的部分視為另一無詞部分,并將其加入至該無詞集中。
18.如權(quán)利要求13所述的計算機新詞學(xué)習(xí)系統(tǒng),其中該中央處理單元于讀取該程序碼后,還執(zhí)行一子詞集清空程序,是清空該子詞集并回到該子詞記錄程序。
19.如權(quán)利要求13所述的計算機新詞學(xué)習(xí)系統(tǒng),其中該預(yù)定值為2。
全文摘要
計算機新詞學(xué)習(xí)方法,包括子詞記錄程序、第一刪除程序以及第二刪除程序。子詞記錄程序?qū)⒂涗浽跓o詞集的至少一無詞部分分解成至少一子詞,并將所得到的子詞記錄于子詞集中,無詞部分是指于一計算機可讀取的文件中,任何相鄰單字均無法構(gòu)成計算機可辨識的詞匯的部分。第一刪除程序分別計算各子詞出現(xiàn)次數(shù),將出現(xiàn)次數(shù)小于預(yù)定值的子詞自子詞集中刪除。第二刪除程序自子詞集中選不同的第一子詞與第二子詞,當(dāng)?shù)谝蛔釉~含于第二子詞中,第一子詞的出現(xiàn)次數(shù)不大于第二子詞時,將第一子詞自子詞集刪除,以由子詞集中產(chǎn)生計算機可辨識的新詞。
文檔編號G06F9/46GK1354422SQ0013295
公開日2002年6月19日 申請日期2000年11月16日 優(yōu)先權(quán)日2000年11月16日
發(fā)明者楊立偉 申請人:意藍科技股份有限公司