專利名稱:漢語語句切分的方法及其系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及語音處理技術,特別是涉及一種能對漢語語句切分予以最佳化的方法及其系統(tǒng),借以提高漢語語句經切分后詞語的精確度。
漢語語句切分處理屬語音處理程序預處理階段中相當重要的一環(huán),是對語音發(fā)聲的漢語語句所代表的文字字串(字串由若干字符所組成),進行適當地切分。若經切分后的文字字串能精確地表達出原語義的話,接下來便可據此表達出此漢語語句的抑揚頓挫,再經語音處理后,便能產生接近真人發(fā)聲的質量效果。
目前,對于漢語語句切分的方法包括正向最大匹配法、逆向最大匹配法、雙向最大匹配法、逐詞遍歷匹配法、以及切割標志法等數種。其中,正向最大匹配法是從文字字串的字首開始匹配,每次切分出可匹配的最長詞,再對剩余字串重復這一步驟,直至全部文字字串都經過切分止。逆向最大匹配法是從漢語文字字串字尾開始匹配,每次切分出可匹配的最長詞,再對剩余字串重復這一步驟,直至全部文字字串都經過切分止。雙向最大匹配法為正向最大匹配法和逆向最大匹配法的綜合運用,分別執(zhí)行正向最大匹配法和逆向最大匹配法,若二者所切分的結果不同,則需采用別的方法處理。而逐詞遍歷匹配法是對整個文字字串搜尋出最長詞,切分出可匹配的最長詞后,再對剩余字串重復這一步驟,直至全部文字字串都經過切分止。切割標志法則先分析文字字串中僅能做為詞首或詞尾的字符,將其做為分詞標志,據此將字串分割成較短的字串,然后配合其他方法進行切分。
由于正向最大匹配法和逆向最大匹配法,是以單向分別自字首和字尾起進行匹配,其時間復雜性與語句內所含的字符數(以自然數n表示)成正比。然而,以此既定順序單向進行匹配的方法,并不能確保全部語句切分的最佳化。譬如,以語句“他說出去一下”為例,若以正向最大匹配法分析,則經切分后為“他//說出//去//一下//”(注,本說明書皆以“//”做為經切分后各詞語間的間隔符號);而以語句“他說出去公園的目的”為例,若以逆向最大匹配法分析,則經切分后為“他//說//出去//公園//的//目的//”。由此可知,正向最大匹配法和逆向最大匹配法,雖屬一種局部最佳化的方法,卻無法確保全部語句切分的最佳化。
對于雙向最大匹配法,其以正向最大匹配法和逆向最大匹配法進行分析,雖能給出一些可能出錯的詞語成分,譬如以語句“他說出去一下”為例,若以雙向最大匹配法進行,則經切分后為“他//說出//去//一下//”、“他//說//出去//一下//”等兩種,然后配合別的方法另行處理。然而,對于不能由正向最大匹配法或逆向最大匹配法切分出的情況,同樣地,也不能確保全部語句經切分后得以最佳化,其時間復雜性比正向最大匹配法或逆向最大匹配法多出了一倍。
而逐詞遍歷匹配法不僅不能保證全部語句最佳化,其時間復雜性也與語句內含字符數的平方(譬如以n2表示)成正比、甚或更高,故實際上很少被采用。至于切割標志法的時間復雜性與語句內所含的字符數(以n表示)成正比。然而由于普遍存在的分詞標志并不多見,故據以將文字字串分割成較短字串的效果,也相當地有限。
因此,本發(fā)明的一個目的,是提供一種能將漢語語句切分的方法及其系統(tǒng),其經切分后所得到的詞語精確度,比正向或逆向最大匹配法等單向最大匹配法高出兩個數量級。
本發(fā)明的另一個目的,是提供一種能將漢語語句切分的方法及其系統(tǒng),其經切分后所得到的詞語精確度,比雙向最大匹配法高。
本發(fā)明的再一個目的,是提供一種能將漢語語句切分的方法及其系統(tǒng),其時間復雜性與語句內所含的字符數成正比。
為了達到上述目的,本發(fā)明可通過提供一種漢語語句切分的方法來完成。首先輸入一個漢語語句,此漢語語句是由多個字符所組成的一個文字字串。再根據一詞語庫,對此文字字串進行詞語匹配。接著,判斷經匹配后的分詞路徑是否唯一;若是,則完成漢語語句切分的方法;若否,則選擇此分詞路徑中最短的一個,然后,判斷此最短分詞路徑是否唯一;若是,則完成漢語語句切分的方法;若否,則根據一詞語詞頻庫,計算該最短分詞路徑相對應的詞語數量,確定該最短分詞路徑中最佳的一個。最后,將最佳的最短分詞路徑輸出。
另外,本發(fā)明也可通過提供一種漢語語句切分系統(tǒng)來完成。該系統(tǒng)包括一詞語庫、一詞語詞頻庫、一輸入裝置、一切分處理器、以及一輸出裝置。詞語庫和詞語詞頻庫分別提供進行切分處理時匹配所需的詞語及詞頻資料。輸入裝置則提供一漢語語句的輸入。切分處理器接收此漢語語句,根據詞語庫提供的詞語資料,依次進行詞語匹配、選擇最短路徑、以及詞語數量計算等步驟。若在進行詞語匹配、選擇最短路徑、以及詞語數量計算等步驟中,所得到的分詞路徑已屬唯一,則得到一個分詞結果。此分詞結果再經輸出裝置輸出。
為使本發(fā)明的上述和其他目的、特征、和優(yōu)點能更明顯易懂,下文將通過一個較佳實施例,并結合附圖,作如下詳細說明
圖1是根據本發(fā)明的漢語語句切分系統(tǒng)方塊圖;圖2是根據本發(fā)明的漢語語句切分方法的流程圖;圖3是應用本發(fā)明方法切分一漢語語句“立即解決戰(zhàn)斗”的示意圖;以及圖4是顯示F(t,N,W)的一個實施例的流程圖。
本發(fā)明的漢語語句切分方法采用三個主要原則第一是分詞與語義無關原則,第二是最少分詞優(yōu)先原則,第三是將詞語可能性予以量化原則。
人類在將語句切分成詞語時,可借助對語義知識的累積,以及考慮其與整個語句語義間的關系,但是如果讓計算機系統(tǒng)同時考慮語句與整個語句的語義關系,則易陷入互為因果的無窮循環(huán)中。為避免這種因果循環(huán)的現(xiàn)象,本發(fā)明采用分詞與需經切分語句語義無關的原則,該原則指將語句切分成詞語時,不考慮其與整個語句語義間的關系,而僅考慮詞語的匹配和排序。再者,本發(fā)明利用了最少分詞優(yōu)先原則,該原則是指在各種可能的分詞結果中,優(yōu)先選取詞語數量最少者,換言之,就是選取最短分詞路徑。另外,將詞語可能性予以量化的原則,是指采用詞頻和詞長做為可能性量度的參數,據以計算出分詞路徑的詞頻加權值,以此確定出最佳的最短分詞路徑。因此無須人類智能的參與,以一般計算機處理器及其相關硬件,便能精準地切分漢語語句。
參照圖1,所示為根據本發(fā)明的漢語語句切分系統(tǒng)方塊圖。該漢語語句切分系統(tǒng)包括切分處理器10、輸入裝置12、詞語庫14、詞語詞頻庫16以及輸出裝置18等等。圖2所示為根據本發(fā)明的漢語語句切分方法的流程圖。下文結合圖1,詳細說明圖2的漢語語句切分方法。
參照圖2,此方法流程開始后,在步驟20從輸入裝置12輸入漢語語句。然后進行到步驟21,由切分處理器10根據詞語庫14所具有的詞語資料進行詞語匹配,此時按照前面所述的“分詞與語義無關原則”做切分,該原則指在切分漢語語句成若干詞語時,并不考慮其與整個語句語義間的關系,而僅考慮詞語的匹配和排序,此經詞語匹配后的分詞路徑可能是唯一,也可能匹配出多種可能的分詞路徑。
接著,在步驟22判斷經步驟21匹配后得出的分詞路徑是否唯一。若所匹配后得到的分詞路徑是唯一的,則前進至步驟26,將該分詞結果經輸出裝置18輸出,完成此漢語語句切分過程;若所匹配后得到的分詞路徑不是唯一的,則前進到步驟23,根據最少分詞優(yōu)先原則,判斷各種匹配所得到的分詞路徑中哪一個分詞路徑詞語數量最少,從而據以選取出分詞路徑最短的一個。
然后前進至步驟24,判斷經步驟23所選取的最短分詞路徑是否唯一。若所選取的最短分詞路徑唯一,則直接轉至步驟26,將分詞結果經輸出裝置18輸出,完成此漢語語句切分過程;如果所選取的最短分詞路徑不是唯一的,則切分處理器10前進到步驟25,根據詞語詞頻庫16選擇最短分詞路徑中最佳的一個。步驟25是根據詞語可能性量化原則,采用詞頻和詞長做為可能性量度參數,據以計算出分詞路徑的詞頻加權值,據以確定出最佳最短分詞路徑。步驟25選出最佳最短分詞路徑,然后經輸出裝置18輸出,完成此漢語語句切分過程。
以下就步驟21分詞與語義無關原則、步驟23最少分詞優(yōu)先原則、步驟25將詞語可能性予以量化原則等,以舉例方式詳細說明。
分詞與語義無關原則為能實現(xiàn)步驟21的詞語匹配,本發(fā)明的較佳實施例定義一函數Ma(t,L,V),其以t為輸入參數,L和V為輸出參數。其中,t表示漢語語句的文字字串內某字符前的節(jié)點(后面詳述)序號;L表示以該字符起始,所匹配成功的最長詞語的詞長;V表示詞長為L的可變匹配向量,可表為V={V(1),V(2),……,V(L)}。具體地說,對于節(jié)點t與其后L個節(jié)點間所包含的L個字符,若匹配成功的詞長為k(k=1,2,……,L),則V(k)=1,若匹配不成功的詞長為k(k=1,2……,L),則V(k)=max。例如,以語句“亂七八槽”為例,以字符“亂”起始,所能匹配成功最長詞語的詞長為四,其中,字符“亂”可以看做是一單字詞,故V(1)=1;“亂七”無法匹配構成詞語,故V(2)=max;“亂七八”也無法匹配構成詞語,故V(3)=max;“亂七八槽”可匹配構成詞語,故V(4)=1。因此,V={1,max,max,1}。
再者,參照圖3,其以一漢語語句為例解釋分詞語義無關原則。假設所需切分的語句具有n個字符,則節(jié)點數為n+1個。圖3所示的漢語語句為“立即解決戰(zhàn)斗”,包括六個字符,分別為“立”、“即”、“解”、“決”、“戰(zhàn)”、“斗”等六字,故節(jié)點數為七個,分別以標號“1、2、3、4、5、6、7”表示。如圖3所示,節(jié)點1位于“立”之前,節(jié)點2位于“立”和“即”之間,節(jié)點3位于“即”和“解”之間,節(jié)點4位于“解”和“決”之間,節(jié)點5位于“決”和“戰(zhàn)”之間,節(jié)點6位于“戰(zhàn)”和“斗”之間,而節(jié)點7位于“斗”字之后。
如圖2步驟21所示,由切分處理器10根據詞語庫14所具有的詞語資料進行詞語匹配,即直接以分詞語義無關原則做切分。值得一提的是,根據本發(fā)明的較佳實施例,每一個字符都可以看做是一單字詞。故經步驟21處理后,可能切分成如圖3所示的分詞路徑8,由節(jié)點1→節(jié)點3→節(jié)點5→節(jié)點7,切分成“立即//解決//戰(zhàn)斗//”;亦或可能如圖3所示的分詞路徑9,由節(jié)點1→節(jié)點3→節(jié)點4→節(jié)點6→節(jié)點7,切分成“立即//解//決戰(zhàn)//斗”。當然也可依節(jié)點1→節(jié)點2→節(jié)點3→節(jié)點4→節(jié)點5→節(jié)點6→節(jié)點7的路徑,就每一單字詞切分,即成“立//即//解//決//戰(zhàn)//斗//”,然這種切分結果通常不是最短路徑,故不予考慮。
然而為能清楚說明起見,首先定義幾個術語。“段點”指兩節(jié)點間依特定方向,自起始節(jié)點至末端節(jié)點間,依據分詞與語義無關原則切分后,任一分詞路徑都需經過的節(jié)點?!白侄巍敝竷上噜彾吸c間所包括的字串?!岸伍L”指字段所具有的字符數。如圖3所示,節(jié)點1、3、7即為段點,“立即”和“解決戰(zhàn)斗”分別屬一字段,而這二字段的段長分別為二和四。
若以Ma(t,L,V)表示圖3段點、字段、以及段長等概念,則對于段點1而言,以Ma(1,L,V)函數表示后,其L等于二。字符“立”可以看做是一單字詞,故V(1)=1;“立即”亦可匹配構成詞語,故V(2)=1,因此V={1,1}。就段點3而言,以Ma(3,L,V)函數表示后,其L等于四。字符“解”可以看做是一單字詞,故V(1)=1;“解決”可匹配構成詞語,故V(2)=1;“解決戰(zhàn)”也無法匹配構成詞語,故V(3)=max;“解決戰(zhàn)斗”可匹配構成詞語,故V(4)=1。因此,V={1,1,max,1}。若t為字段的終點,則需滿足以下兩個條件(1)執(zhí)行Ma(t-1,L,V)后,L=1,V={1};以及(2)對任一節(jié)點t1,若t1<t,則執(zhí)行Ma(t1,L,V)后,t1+L≤t。
條件(1)表示字段終點前的字符可以是單字詞,但不能與后一個字符構成詞語。條件(2)表示字段終點前的字符可以是詞尾,但不能連同前一字符和后一字符構成詞語。因此,根據上述方法,便可依據分詞與詞義無關原則,實現(xiàn)步驟21根據詞語庫14進行詞語的匹配。由于根據詞語庫14切分漢語語句成若干詞語時,僅考慮詞語的匹配和排序,此經詞語匹配后的分詞路徑可能是唯一的,也可能匹配出多種可能的分詞路徑。圖3示出兩種分詞路徑8和9。
最少分詞優(yōu)先原則如圖2所示,步驟22判斷經步驟21匹配后的分詞路徑是否唯一。若所匹配得到的分詞路徑是唯一的,則直接至步驟26,將分詞結果經輸出裝置18輸出,完成此漢語語句切分的方法;若所匹配得到的分詞路徑不是唯一的,則前進到步驟23,配合最少分詞優(yōu)先原則,在各種匹配得到的各分詞路徑中,優(yōu)先選取詞語數量最少的一個,換句話說,即選擇最短路徑者。如圖3所示,存在兩種分詞路徑8和9,故前進到步驟23,以最少分詞優(yōu)先原則選擇分詞路徑最短的一個。
本發(fā)明所采用的最少分詞優(yōu)先原則,在于尋求解決包含n個字符的漢語語句切分后最短路徑的問題,簡言之,即為尋求K個段長分別為L1、L2、……、LK等字段的最短路徑問題。因此,可以定義函數F(t,N,W),其以t為輸入參數,N和W為輸出參數。其中,t表示漢語語句文字字串的節(jié)點序號;N為包含兩個元素的一維數值,其中,N[1]表示以該字符為首的字段長度,N[2]表示該字段所含詞語的個數。W為一個可變長數值,其維數表示最短路徑所包含的詞語數,而數組中每一元素依序表示相對應詞語的長度。此步驟的時間復雜性與語句內所含的字符數成正比。
現(xiàn)在參照圖4對F(t,N,W)的一個實施例進行說明。在此流程圖中除了使用前面描述的幾個符號外,還用到另外幾個變量,下面對它們略作解釋。
r是一個計數器,表示對V中第幾個字符進行操作,在V(r)=1時,r表示匹配成功的詞長;I表示當前所操作的節(jié)點指針;buffer是一個分詞路徑緩沖區(qū),用于保存多個中間分詞路徑;m是W的初值,m=(1,1,1,1……)。
下面參照圖4,并以“乒乓球拍賣完了”為例對最少分詞優(yōu)先原則進行解釋。對于“乒乓球拍賣完了”這個語句,在利用Ma(t,L,V)判斷后可分成兩個字段乒乓球拍賣//完了。下面僅對第一個字段“乒乓球拍賣”的處理過程進行說明,對其他字段的處理可以同樣的方式進行。
在步驟41,將有關變量,I,N,buffer置為0,字段起點指向節(jié)點t,W=m=(1,1,1,1,1)。
在步驟42,將I增1,I+t指向要處理的字段“乒乓球拍賣”,然后執(zhí)行Ma(I+t,L,V)。對所例示的字段進行所述處理的結果是L=4,V=(1,1,1,1)。
在步驟43,判斷當前字段是否處理完,即L是否為0;如果當前字段尚未處理完,則進入步驟44,否則轉入步驟50。對于例示的字段,由于L=4,因此進入步驟44。
在步驟44,判斷當前處理的字符串是否為單字,即L是否為1;如果L為1,則不進行最少分詞處理,返回步驟42。在本例中,由于L=4,因此流程進入步驟45。
在步驟45,令變量r=2,即從當前指針所指向的字符的后一個字符開始后續(xù)處理。
在步驟46,判斷當前字符是否可與其前面的相關字符匹配成短語,即判斷V(r)是否等于1。
如果步驟46的判斷結果為是,則進入步驟47,48進行路徑計算,否則轉入步驟49。
在解釋步驟47,48之前,我們首先介紹buffer的結構。變量buffer用于存儲要進行處理的所有路徑(包括W,但是W是一個特殊的路徑,我們在下面要對其介紹),以n表示其中所存儲的路徑個數。分別以temp
,temp[1],…,temp[n-1]表示其中存儲的n條路徑。
我們現(xiàn)在用偽碼表示步驟47,48的處理過程。
FOR i=0;i<n;i++//搜索buffer中的全部路徑IF(temp[i]
+temp[i][1]+…+temp[i][k])=I&&temp[i][k]=1//尋找變量kTHEN用r取代temp[i]中從第k個元素開始的r個元素生成一個新的路徑;將該新路徑存入buffer以取代temp[i];ENDIF簡言之,就是尋找出在buffer中所存儲的一個路徑中與當前I對應的一個變量k,然后用r取代在所尋找出的路徑中的從第k個元素開始的r個元素,生成新的路徑。這里需要說明的是,W雖然是buffer中的一個路徑,但它是一個特殊的路徑,主要用于在尋找變量k時進行比較,并且不被新的路徑更新。
在步驟49,判斷是否已將V中的元素處理完畢,如果處理完畢,則轉移到步驟42,否則重復步驟46,47,48。
現(xiàn)在仍然以上面的例子“乒乓球拍賣”,說明步驟46,47,48的處理過程。
在對于字段“乒乓球拍賣”初次進入循環(huán)46,47,48時,I=1,W=(1,1,1,1,1),buffer中只有一個路徑W。由于V(2)=1,因此進入步驟46,參看上述偽碼,我們發(fā)現(xiàn)只有k=0才符合IF中的判斷條件,因此用r=2取代W中的從k=0開始的兩個元素,因為W不能被更新,所以建立一個新的路徑(2,1,1,1)。
由于L=4,r++=3<L,V中的元素尚未處理完,該過程返回步驟46,由于V(3)=1,重復步驟47,48,其結果是k=0,產生第二個路徑(3,1,1)。然后r++=4<=L,該過程再次返回步驟46,由于V(4)=1,再次進入步驟47,48。其中發(fā)現(xiàn)k=0,產生第三條路徑(4,1)。
接下來,由于r++=5>L,該過程返回步驟42,在執(zhí)行了步驟42之后,I=2(對“乓”進行操作),L=1,V=(1)。由于L=1表示該字為單字,經過步驟44后該過程返回步驟42。
再次執(zhí)行步驟42之后,I=3(對“球”進行操作),L=2,V=(1,1)。然后過程又進入45,46,47,48對V,buffer,W操作,其處理方式與上面的描述完全相同,這里不再贅述,對I=3處理的結果是在buffer中存儲了四條路徑(1,1,2,1),(2,2,1),(3,1,1),(4,1)。然后該過程返回步驟42。對I=4處理的結果是在buffer中存儲有五條路徑(1,1,1,2),(1,1,2,1),(2,2,1),(3,2),(4,1)。然后該過程又返回步驟42。
對于I=5,L=1,V=(1),由于L=1,對于單字不進行路徑處理,過程返回步驟42。
對于I=6,執(zhí)行Ma(I+t,L,V)之后,由于L=0,該過程從步驟43轉移到步驟50。
在步驟50中,選出buffer中所有最短路徑,并將其存入W。從上面的說明中,我們知道在buffer中共有五條路徑,其中最短的路徑有兩條(3,2),(4,1)。
因此在步驟50,51之后,W中有兩條路徑路徑1W=(3,2),N[1]=5,N[2]=2;路徑2W=(4,1),N[1]=5,N[2]=2;其中W=(3,2)表示該字段分為長度分別為3和2的兩個詞。W=(4,1)表示該字段分為長度分別為4和1的兩個詞詞語可能性量化原則然而,經過步驟23處理后,所選取的最短分詞路徑不是唯一時,例如,語句“乒乓球拍賣完了”經步驟23處理后,可切分為“乒乓球//拍賣//完//了//”或“乒乓球拍//賣//完//了//”。較有爭議的字串“乒乓球拍賣”,在經執(zhí)行F(1,N,W)后,雖然N[1]等于5、N[2]等于2、W也是二維,但是,W值一個為{3,2},另一個為{4,1},由此可知,上述兩種切分方式均屬最短路徑。因此,必須再經步驟25進行詞頻加權值的計算,以確定出最佳的最短分詞路徑。
為實現(xiàn)對最佳的最短分詞路徑的確認,本發(fā)明利用詞語詞頻庫16,將詞語的可能性予以量化,采用詞頻和詞長作為可能性量度的參數。假設語句的文字字串S=X1X2X3……Xn,X1、X2、X3、……、Xn表示構成語句的n個字符,經步驟23處理后,最短分詞路徑A將字串S切分為W1W2W3……Wk等k個詞語,而這k個詞語的頻度分別為P1、P2、P3、……、Pk,其詞長分別為L1、L2、L3、……Lk,L1+L2+L3+……+Lk=n。據此,定義一詞頻加權函數g(S,A)如下g(S,A)=f(L1,P1)+f(L2,P2)+f(L3,P3)+……+f(Lk,Pk)。
此式表示以最短分詞路徑A切分字串S的詞頻加權函數,而f(L,P)稱為關于詞頻P和詞長L的詞頻加權函數。根據本發(fā)明方法,詞頻加權函數f(L,P)定義成若L=1,f(L,P)=P;若L>1 f(L,P)=CP,C為一常數,最好是5以上的正整數。因此,只要確定適當的詞頻加權函數f(L1,P1)、f(L2,P2)、f(L3,P3)……或f(Lk,Pk)等,即可計算出每個切分詞語的詞頻加權數值,再將每個詞語的詞頻加權數值相加,就可以對各種可能切分結果進行可能性的排序,據此選擇最短分詞路徑中可能性最高的。因此,步驟25根據詞語詞頻選擇最短路徑中最佳的一個,根據本發(fā)明的較佳實施例,就是選擇將每個詞語的詞頻加權數值相加后得到的詞頻加權函數g(S,A)為最大的一個。
若以上述語句“乒乓球拍賣完了”為例,經步驟23處理后,有兩種切分情況,分別為“乒乓球//拍賣//完//了//”或“乒乓球拍//賣//完//了//”。若詞語“乒乓球”、“拍賣”、“完”、“了”相對應的詞頻分別為0.00080、0.00019、0.03425、1.81942等,常數C等于7,則切分“乒乓球//拍賣//完//了”的詞頻加權數值即為g1=0.00080×7+0.00019×7+0.03425+1.81942=1.8606;若詞語“乒乓球拍”、“賣”、“完”、“了”相對應之詞頻分別辦0.00012、0.01127、0.03425、1.81942等,常數C等于7,則切分“乒乓球拍//賣//完//了//”之詞頻加權數值即為g2=0.00012×7+0.01127+0.03425+1.81942=1.86578。
由于g2>g1,故選擇切分結果“乒乓球拍//賣//完//了//”輸出。
當然,以詞頻加權數值做為選擇最佳最短分詞路徑的依據,其精確度要依賴詞語詞頻庫內各詞語的詞頻資料。詞頻資料來自于實際上對語言使用的統(tǒng)計,和本發(fā)明方法無關,故對于如何建立詞語詞頻庫在此不再贅述。
綜合上述,本發(fā)明的漢語語句切分的方法,采用分詞與需經切分語句的語義無關原則、以及最少分詞優(yōu)先原則,按照切分所需運行時間的長短來排序,優(yōu)先選擇運行時間最短者,尋求最短分詞路徑。若所獲得的最短分詞路徑不唯一,則以詞語的可能性量化原則,采用詞頻和詞長做為可能性量度的參數,計算各個最短分詞路徑的詞頻加權數值,換句話說,就是按照可能性大小排序,選擇出最佳的最短分詞路徑。因此,本發(fā)明的漢語語句切分的方法,同時兼具運行時間短、切分詞語精確度高等優(yōu)點。
雖然本發(fā)明以一個較佳實施例的方式進行了說明,然而其目的并非限制本發(fā)明,本領域的普通技術人員在不脫離本發(fā)明的精神和范圍的情況下,可進行各種修改和變形,因此本發(fā)明的保護范圍應以所附的權利要求書為準。
權利要求
1.一種漢語語句切分方法,包括下列步驟(a)輸入一漢語語句,該漢語語句是由多個字符所組成的一文字字串;(b)根據一詞語庫,對該文字字串進行詞語匹配;(c)判斷經匹配后的分詞路徑是否唯一;若是,則完成該漢語語句切分過程;否則,(d)選擇該分詞路徑中最短者;(e)判斷該最短分詞路徑是否唯一,若是,則完成該漢語語句切分過程;否則(f)根據一詞語詞頻庫,選擇該最短分詞路徑可能性最高者;以及(g)輸出該可能性最高的最短分詞路徑。
2.如權利要求1的方法,其中,步驟(b)是采用詞語與該語句的語義無關原則。
3.如權利要求1的方法,其中,步驟(d)是采用最少分詞優(yōu)先原則。
4.如權利要求1的方法,其中,步驟(f)是以詞頻加權數值來決定。
5.如權利要求4的方法,其中,該詞頻加權數值是根據該最短分詞路徑中,所匹配而得到的該詞語的詞長與詞頻而定。
6.如權利要求5的方法,其中,若該詞語為單字詞,該詞頻加權數值僅包含相對應的該詞頻;若該詞語為非單字詞,則該詞頻加權數值為相對應的該詞頻與一加權常數的乘積。
7.如權利要求6的方法,其中,該加權常數為大于5的正整數。
8.一種漢語語句切分系統(tǒng),包括一詞語庫和一詞語詞頻庫,它們分別提供在切分處理時匹配所需的詞語及詞頻資料;一輸入裝置,用于輸入一漢語語句;一切分處理器,接收該漢語語句,根據該詞語庫中該詞語的資料,依序進行詞語匹配、選擇最短路徑、以及詞頻加權數值計算;若在進行該詞語匹配、選擇最短路徑、以及詞頻加權數值計算中,所得到的分詞路徑為唯一,即屬一分詞結果;以及一輸出裝置,用以輸出該分詞結果。
9.如權利要求8的漢語語句切分系統(tǒng),其中,在該詞語匹配的步驟中采用詞語與該語句的語義無關原則。
10.如權利要求8的漢語語句切分系統(tǒng),其中,在該選擇最短路徑的步驟中采用最少分詞優(yōu)先原則。
11.如權利要求8的漢語語句切分系統(tǒng),其中,該詞頻加權值是根據該最短分詞路徑中,所匹配而得到的該詞語的詞長與詞頻而定。
12.如權利要求11的漢語語句切分系統(tǒng),其中,若該詞語為單字詞,該詞頻加權數值僅包含相對應的該詞頻;若該詞頻為非單字詞,則該詞頻加權數值為相對應的該詞頻與一加權常數的乘積。
13.如權利要求12的漢語語句切分系統(tǒng),其中,該加權常數為大于5的正整數。
全文摘要
一種漢語語句切分的方法及系統(tǒng)。其先提供一漢語語句的輸入,此漢語語句是由多個字符所組成的一文字字串。再根據一詞語庫,對此文字字串進行詞語匹配。接著,判斷經匹配后的分詞路徑是否唯一;若是,則完成該漢語語句切分的方法;若否,則選擇該多個分詞路徑中的最短者。然后,判斷該最短分詞路徑是否唯一;若是,則完成該漢語語句切分的方法;若否,則根據一詞語詞頻庫,計算該最短分詞路徑相對應的詞語數量,確定該最短分詞路徑之中的最佳者。最后,將最佳最短分詞路徑輸出。
文檔編號G06F17/20GK1204811SQ9811841
公開日1999年1月13日 申請日期1998年8月13日 優(yōu)先權日1998年8月13日
發(fā)明者張景嵩, 張金玉, 鄭奕 申請人:英業(yè)達股份有限公司