專利名稱:利用計(jì)算機(jī)系統(tǒng)的日文文本字的識(shí)別的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通常的數(shù)據(jù)處理系統(tǒng),尤其是涉及利用計(jì)算機(jī)系統(tǒng)的日文文本中字的識(shí)別。
日文文本利用四種不同的書寫系統(tǒng),其中每一種采用獨(dú)立的字符集。這些書寫系統(tǒng)是平假名,片假名,漢字和羅馬字。片假名字符代表一些音節(jié),典型地是輔音和元音的結(jié)合,并用來書寫外來西方語言如英語的詞。平假名字符亦代表一些音節(jié),且用得最廣,以書寫語法上的詞如副詞,功能類如動(dòng)詞的屈折變化及其它標(biāo)記。平假名和片假名合起來稱為假名。根據(jù)素材用平假名和片假名書寫的一些字其平均字長在3到5個(gè)字符之間。漢字字符主要是借用中文來表示的字符,且是代表意思的表意文字字符。羅馬字是羅馬字符,如在英文中可見到的羅馬阿拉伯字。
在自然語言處理中,存在多種書寫系統(tǒng)使處理和分析日文文本的工作復(fù)雜化。用日文書寫字的方式使這工作更復(fù)雜。尤其是一些字被寫在一起而沒有間隔分開(即在字之間無空白間隔定界)。因此,在用日文寫的文本串中,用一計(jì)算機(jī)系統(tǒng)來識(shí)別各個(gè)字是困難的。一種常規(guī)的方法用字典中的字最大限度地匹配文本串中的假名和漢字。不幸的是為了識(shí)別大量的字,該方法需要一大字典,這種字典太大無法有效地存儲(chǔ)在主存儲(chǔ)器(即RAM)中。結(jié)果,這種字典必須存儲(chǔ)在二級存儲(chǔ)器中,且每次從字典中尋找一字時(shí)必須承擔(dān)有關(guān)訪問二級存儲(chǔ)器的開銷。而且,即使非常大的字典也不能保證完全復(fù)蓋所有字。這困難是由于什么字的動(dòng)態(tài)特性是給定的自然語言部分是復(fù)雜的。隨著時(shí)間的推進(jìn),有些字要從語言中加入(即新產(chǎn)生的新字)而有些字從語言中除去(即不再使用的字或廢棄的字)。因此,一固定的字典,其特點(diǎn)限制了對給定語言字的復(fù)蓋,而且,這種字典將損失其復(fù)蓋范圍而過時(shí)。
根據(jù)本發(fā)明的第一方面,表示自然語言字符輸入串分析的方法,在具有存儲(chǔ)器的計(jì)算機(jī)系統(tǒng)上被實(shí)現(xiàn)??窟@種方法,處理輸入串以識(shí)別串中的自然語言字符和串中的詞素。在存儲(chǔ)器中生成一結(jié)構(gòu),其中存有保存詞素變換和拼寫的有向非周期圖,以對輸入串進(jìn)行形態(tài)分析。
根據(jù)本發(fā)明的第二方面,提供n粒模板,指出在詞干中所找的字符類型模式,每個(gè)模板還包括在詞干中出現(xiàn)的與模板的相似性有關(guān)信息。至少某些模板同部分輸入串匹配,以識(shí)別匹配的模板。匹配的模板用來識(shí)別輸入串的哪一部分是詞干。
根據(jù)本發(fā)明的還有一個(gè)方面,提供日文字符的輸入串,并且通過首先處理最右字符,并在第一字符的左邊依次處理字符,以從右到左的方式,對輸入串執(zhí)行形態(tài)分析,形態(tài)分析識(shí)別輸入串中的粘附詞素和至少一個(gè)詞位。
根據(jù)本發(fā)明的另一個(gè)方面,對日文字符的輸入串執(zhí)行形態(tài)分析,產(chǎn)生有向非周期圖,該圖具有表示字符或詞素的結(jié)點(diǎn)及把結(jié)點(diǎn)互相連接的指針。該圖有一個(gè)根結(jié)點(diǎn)及一些葉結(jié)點(diǎn)。每個(gè)葉結(jié)點(diǎn)具有從葉結(jié)點(diǎn)指到根結(jié)點(diǎn)的路徑,以表示包含粘附詞素的至少部分輸入串的形態(tài)分析。從根結(jié)點(diǎn)到葉結(jié)點(diǎn)路徑被評分以支持包括對大部分輸入串分析的路徑及支持包括大量粘附詞素的路徑,選擇最高得分路徑作為用于部分輸入串的形態(tài)分析。
根據(jù)本發(fā)明的還有一個(gè)方面,在計(jì)算機(jī)系統(tǒng)上執(zhí)行處理日文字符輸入串的方法。根據(jù)這方法,通過采用統(tǒng)計(jì)技術(shù),在輸入串中識(shí)別斷詞(Phrasebreak),斷詞確定詞組界限,對輸入串中的每個(gè)詞組要執(zhí)行一些步驟。首先,識(shí)別可能存在的詞尾粘附詞素并生成這些詞素的圖形表示。通過把輸入串中的字符同識(shí)別詞干中字符類型模式的詞干字符模板相比較,識(shí)別詞組中可能存在的詞干。對每個(gè)可能的詞干識(shí)別可能存在的詞頭粘附詞素,生成詞頭粘附詞素的圖形表示。選擇了可能存在的詞尾粘附詞素,詞干及詞頭粘附詞素的最好組合,作為最佳特性輸入串,對輸入串詞組分析。
根據(jù)本發(fā)明的還有一個(gè)方面,在一計(jì)算機(jī)系統(tǒng)中實(shí)施的方法,缺少一全面詳細(xì)的字典??窟@種方法提供字符的輸入串,那里的字符在字符間缺少空白間隔,處理輸入串以識(shí)別詞中字,詞干及詞綴。
根據(jù)本發(fā)明的另一個(gè)方面,處理一個(gè)有許多字符文檔的文本,以得到文本的形態(tài)圖。在形態(tài)圖中插入一些標(biāo)記,以識(shí)別文本中的選擇邊界。當(dāng)用戶使用輸入設(shè)備請求選擇文本時(shí),使用標(biāo)記以識(shí)別得到選擇的粒度。
本發(fā)明的優(yōu)選實(shí)施例將參照下列附圖予以說明。
圖1是適合于實(shí)施本發(fā)明優(yōu)選實(shí)施例的計(jì)算機(jī)系統(tǒng)的方塊圖。
圖2是描述本發(fā)明優(yōu)選實(shí)施例實(shí)現(xiàn)的各分析步驟的方塊圖。
圖3是說明本發(fā)明優(yōu)選實(shí)施例實(shí)現(xiàn)的各步驟的流程圖。
圖4是說明硬斷詞(HPB Hard Phrase Break)分析中執(zhí)行的處理的方塊圖。
圖5是說明HPB分析期間執(zhí)行的步驟的流程圖。
圖6是日文輸入文本串示例的描述,此文本串已經(jīng)過識(shí)別HPB的處理。
圖7是表示詞尾分析中數(shù)據(jù)流的方塊圖。
圖8是詞尾分析期間執(zhí)行的步驟的流程圖。
圖9描述詞素項(xiàng)(morpheme entry)的例子。
圖10是說明一重復(fù)詞尾分析執(zhí)行步驟的流程圖。
圖11是詞尾形態(tài)圖的示例。
圖12是詞尾形態(tài)圖中結(jié)點(diǎn)形式的描述。
圖13是用于本發(fā)明優(yōu)選實(shí)施例的詞尾評分部分的評分表說明。
圖14描述在詞干分析中所執(zhí)行的分析和數(shù)據(jù)流。
圖15表示在主詞匯查找中執(zhí)行步驟的流程圖。
圖16表示在拼寫匹配中執(zhí)行步驟的流程圖。
圖17A描述軟斷詞(SPB Soft Phrase Break)結(jié)點(diǎn)結(jié)構(gòu)的格式。
圖17B描述SPB分析結(jié)構(gòu)的格式。
圖17C描述由SPB結(jié)點(diǎn)形成的SPB分析樹的格式。
圖18描述詞頭分析中的數(shù)據(jù)流。
圖19是表示在詞頭分析中執(zhí)行步驟的流程圖。
圖20是根據(jù)本發(fā)明優(yōu)選實(shí)施例執(zhí)行的選擇詞組優(yōu)化分析的步驟流程圖。
圖21A是在本發(fā)明的優(yōu)選實(shí)施例的應(yīng)用程序中,使用選擇標(biāo)記的執(zhí)行步驟的流程圖。
圖21B是在第二和第三應(yīng)用程序中執(zhí)行步驟的流程圖表示。
本發(fā)明的優(yōu)選實(shí)施例涉及字切分(Word breaking)功能,用于將一串日文文本切分成獨(dú)立的字或自立語(Jiritsugo)詞組。本發(fā)明的優(yōu)選實(shí)施例執(zhí)行對該文本串的預(yù)先形態(tài)處理,以降低系統(tǒng)對大固定詞典的依賴性,并避免與“首要突出(up-front)”使用詞典相關(guān)的訪問開銷及未知字的識(shí)別問題。本發(fā)明的優(yōu)選實(shí)施例采用獨(dú)一的形態(tài)圖,它體現(xiàn)出由形態(tài)處理所識(shí)別的詞素之間的變換。這張圖是形態(tài)分析的非常緊湊的表達(dá)。本發(fā)明的優(yōu)選實(shí)施例還采用拼寫(ophemes=orthographemes),它們是字符型的模板圖案,用于詞干分析期間以識(shí)別詞干。
由本優(yōu)選實(shí)施例執(zhí)行形態(tài)分析設(shè)法識(shí)別“詞素”,它們是詞意的基本單元,或更正規(guī)地說是不可分的語言學(xué)單元。每個(gè)詞素可能是包含稱做“詞干”內(nèi)容的獨(dú)立語言學(xué)單元,或是粘附在詞干上粘附的語言學(xué)單元。在以下的日文文本討論中,詞干將被稱作“自立語”而粘附的詞素稱作附屬語“fuzokugo”。舉例有助于解譯分清詞干和粘附詞素。英文字“walks”包含詞干“walk”和粘附詞素“S”。詞干“walk”含有以腳踱步在路面移動(dòng)意思的內(nèi)容,而“S”的作用是指出該動(dòng)詞是用于單數(shù)第三人稱。
本發(fā)明的優(yōu)選實(shí)施例識(shí)別自立語詞組,這是這樣一種單元它包含一個(gè)或多個(gè)獨(dú)立存在的字,或自立語詞干加任意數(shù)目的從屬詞素。這些從屬詞素通常以詞綴形式出現(xiàn)(即詞頭或詞尾)。一個(gè)例外是自立語詞組可能包含復(fù)合名詞或含有多自立語的復(fù)合動(dòng)詞。這種復(fù)合名詞和復(fù)合動(dòng)詞將在下面作更詳細(xì)的討論。
本發(fā)明的優(yōu)選實(shí)施例還采用新穎的統(tǒng)計(jì)學(xué)方法的組合以處理輸入文本串。首先,使用切分單粒(breaking unigrams)和分切雙粒(breakingbigrams)的統(tǒng)計(jì)概率,以確定出現(xiàn)在輸入文本串中的硬斷詞的(HPB′s)概率。HPB指示文本串的一個(gè)位置,它有極高的概率起兩個(gè)詞組之間的邊界點(diǎn)的作用。本發(fā)明的實(shí)施例也利用inter-SPB的詞素雙粒和intra-SPB的詞素雙粒概率。軟斷詞指在自立語詞組之間的切分,這些詞組是在HPB′s之間的文本分析期間被確定的??赡艽嬖诘淖粤⒄Z詞組分析被SPB′s粘附,但SPB這個(gè)述語后面將會(huì)用來表示自立語詞組。SPB之間的詞素雙粒指的是在兩個(gè)不同的軟斷詞中由詞素形成的雙粒,而SPB內(nèi)的詞素雙粒由在單個(gè)軟斷詞內(nèi)的詞素形成。這些雙粒概率用于加權(quán)可能的形態(tài)分析以及強(qiáng)制某些詞干分析。漢字雙粒概率也被提供以加權(quán)某些詞干分析。
圖1是適于實(shí)施本發(fā)明優(yōu)選實(shí)施例的計(jì)算機(jī)系統(tǒng)10的方塊圖。熟悉本專業(yè)的人將會(huì)了解,圖1所描述的計(jì)算機(jī)系統(tǒng)10僅僅為了說明,并且本發(fā)明的實(shí)施也可采用其它的計(jì)算機(jī)系統(tǒng)結(jié)構(gòu),包括分布式系統(tǒng)以及多處理器系統(tǒng)。計(jì)算機(jī)系統(tǒng)10包含處理器12,至少一個(gè)輸入裝置14和至少一個(gè)輸出裝置16。輸入裝置14可以是例如鍵盤,鼠標(biāo)器,麥克風(fēng),指點(diǎn)裝置,數(shù)字化板或其它輸入裝置。輸出裝置16可以是例如視頻顯示裝置,打印機(jī),揚(yáng)聲器或其它輸出裝置。計(jì)算機(jī)系統(tǒng)10也可能包含將計(jì)算機(jī)系統(tǒng)與網(wǎng)絡(luò)17連接的網(wǎng)絡(luò)接口15。計(jì)算機(jī)系統(tǒng)還包括存儲(chǔ)裝置18,它存有應(yīng)用程序20和字切分功能22。字切分功能22持有用以實(shí)現(xiàn)這里所說的本發(fā)明優(yōu)選實(shí)施例的指令。雖然在圖1中描述的字切分功能22是有別于應(yīng)用程序20,但熟悉本專業(yè)的人員將了解到,字切分功能可以直接集成到應(yīng)用程序中去,或者可以是成為系統(tǒng)庫或操作系統(tǒng)部分的獨(dú)立功能。
圖2是一方塊圖,說明了為識(shí)別在輸入日文文本串中的自立語詞組由字切分功能22執(zhí)行的處理步驟,下面將結(jié)合圖3的流程圖對圖2的分析步驟予以說明。最初,對日本輸入文本段24執(zhí)行HPB分析26,以定位輸入文本中的HPB′s(圖3的步36)。輸入文本24可以取不同的形式,例如,輸入文本可能是部分字處理文檔。另外,輸入文本可能是用戶使用輸入裝置14所輸入的,或是部分其它類型文檔。HPB′s通過統(tǒng)計(jì)技術(shù)而被識(shí)別。特別是,如圖4所示HPB分析26依賴單粒和雙粒斷詞概率47,以便統(tǒng)計(jì)地識(shí)別在輸入文本24中什么位置上詞組的切分最可能發(fā)生。單粒和雙粒斷詞概率47持有與切分單粒(即單字符,如標(biāo)點(diǎn)符號(hào))和切分雙粒(雙字符)有關(guān)的數(shù)據(jù)。特別是,對每個(gè)單粒,識(shí)別的字符以及有關(guān)該字符的斷詞位置被存儲(chǔ),而對雙粒,識(shí)別的第一字符以及該第一字符后面的字符的字符類別被存儲(chǔ)。熟悉本專業(yè)的人員都知道,在另外的實(shí)施例中,單粒可以存放字符類別的數(shù)據(jù)而不是識(shí)別的字符。而且,雙粒也可改為存放對兩個(gè)字符的字符類別數(shù)據(jù),也可對第一字符不存字符類別數(shù)據(jù)或存字符類別數(shù)據(jù)而對第二字符存識(shí)別信息。字符類別包括標(biāo)點(diǎn),平假名,片假名,漢字和羅馬字,在一個(gè)實(shí)施例中,對左切分單粒,右切分單粒和字符間具有切分的雙粒的概率進(jìn)行了存儲(chǔ)。
切分單粒和雙粒的概率通過處理加標(biāo)記的識(shí)別切分單粒和雙粒的素材而獲得。通常,左切分單?;蛴仪蟹謫瘟5念l度中切分分別是對單粒的左或右切分出現(xiàn)的次數(shù)除以文檔中切分的總數(shù)。單粒切分概率等于切分頻度除以素材中出現(xiàn)的總頻度。對雙粒,切分頻度是在構(gòu)成雙粒的兩個(gè)標(biāo)記之間發(fā)生切分的次數(shù)除以文檔中切斷的總數(shù)。分解雙粒的概率等于切分頻度除以素材中雙粒(分解的和不分解的兩者)的總頻度。
圖5的流程圖說明在HPB分析26中執(zhí)行的步驟。在第一已知或假定的HPB處(圖4的步50)開始處理輸入文本24。這里第一已知或假定的硬斷詞取決于怎樣一些位標(biāo)志由調(diào)用字切分功能22的客戶機(jī)應(yīng)用程序20設(shè)定。如果TOKENIZE_HPB_END位被設(shè)置,則假定輸入文本24的最后一字符位于HPB之前,如果TOKENIZE_HPB_BEGIN位被設(shè)置,則假定第一字符跟隨一硬斷詞。通常,硬斷詞分析從第一進(jìn)行到最后的已知或假定的硬斷詞。
一個(gè)例子有助于說明這些位標(biāo)志在HPB斷詞分析26的處理中具有的作用。假定有下面一輸入文本ABC/DEF/GHI在上面的例子中,HPB′s以周圍有間隔的斜線號(hào)(/)表示。如果沒有任何位標(biāo)志被設(shè)置,HPB分析對“DEF”進(jìn)行,因?yàn)闆]有假定的硬斷詞并且僅有已知的斷詞存在。如果TOKENIZE_HPB_BEGIN位標(biāo)志被設(shè)置,HPB分析對“ABCDEF”進(jìn)行,因?yàn)閿嘣~被假定在輸入文本的起始處。如果只有TOKENIZE_HPB_END位標(biāo)志置位,HPB分析對“DEFGHI”執(zhí)行,因?yàn)榧俣〝嘣~是在輸入文本的尾端。最后,如果TOKENIZE_HPB_BEGIN位標(biāo)志和TOKENIZE_HPB_END位標(biāo)志都被設(shè)置,則HPB分析在“ABCDEFGHI”上執(zhí)行。
通常,通過每一字符或每對相鄰字符與單粒和雙粒斷詞概率47比較,以確定是否存在匹配來完成HPB分析26(圖5的步52)。如果匹配,通過在表示矩陣的項(xiàng)中放入一斷詞概率以及時(shí)標(biāo)注HPB。字切分功能22維護(hù)一矩陣用以描述在輸入文本中每個(gè)字符到字符的邊界。矩陣中每個(gè)項(xiàng)包含對應(yīng)于斷詞概率的以二為底的對數(shù)的值。因此,HPB分析26結(jié)果形成帶有硬斷詞標(biāo)注48(圖4)的輸入文本。
圖6顯示部分輸入文本的例子,此輸入文本已經(jīng)過識(shí)別硬斷詞處理。在圖6的示例中,HPB′s用“1”表示。輸入文本也有用“/”標(biāo)注的SPB′s。SPB′s是怎樣安排的下面將詳細(xì)說明。
字切分功能22接著進(jìn)行輸入文本每個(gè)由HPB′s定界的子段中的字符。假定認(rèn)為,每個(gè)這樣的子段潛在地持有自立語詞組。指示HPB單粒的標(biāo)點(diǎn)字符作為單字符自立語詞組對待。此子段處理的第一步是詞尾分析和主詞匯查找27,它設(shè)法識(shí)別粘附在詞干上的詞尾詞素(圖3中的步38),并支持某些用不同詞匯表達(dá)的字,這些字與詞尾分析(圖3步37)選中的是同形異義的。步27的處理取輸入文本的子段并生成形態(tài)圖(它是有向非周期的加權(quán)圖),該圖持有子段中字符的全部可能會(huì)有的形態(tài)分析。此形態(tài)圖的規(guī)則和格式將在下面做詳細(xì)描述。
為了有效,本發(fā)明的優(yōu)選實(shí)施例在開始詞尾分析之前執(zhí)行主詞匯查找(圖3中步32)。特別是在主詞匯96中(圖7),找尋緊靠硬斷詞左邊的串,以確定是否有以平假名字符結(jié)尾而且具有零長度詞尾分析的串。主詞匯查找避免必須加每個(gè)長達(dá)18個(gè)零的詞尾分析到形態(tài)圖中,這種詞尾分析可能跟隨著平假名字符。
如圖7所示,詞尾分析使用形態(tài)文件58以輸入文本子段56構(gòu)造詞尾形態(tài)圖。形態(tài)文件58包含許多詞素。形態(tài)文件58中僅包含粘附詞素或按粘附詞素處理的詞素。在本發(fā)明的優(yōu)選實(shí)施例中,形態(tài)文件58可能包含例如600到1000個(gè)詞素,每個(gè)詞素具有像圖9所述的格式。特別是,每個(gè)詞素指示該詞素的名稱(例如“INFL_vADJ_Kattari”,在圖9中)。每個(gè)詞素還包含“Analysis”部分用以指示分析,在每個(gè)分析中包含詞形變化表和為該詞形變化表的詞素外觀表述。在圖9所示的例子中,“ADJ”標(biāo)識(shí)形容詞詞形變化表,而在“<<”右邊的日文字符是詞素的外觀表述。詞形變化表為輸入文本中粘附詞素左邊的下一字符指定形態(tài)類別(MCat)。詞形變化表粗略地與語音部分的標(biāo)識(shí)對應(yīng)。詞素還包含“NextStates”部分。該“Next States”部分指示可能跟隨右邊的詞素狀態(tài)。例如,RNONE狀態(tài)指出詞素的右邊沒有字符的情況。在“Next States”部分列出的狀態(tài)可能包括強(qiáng)制性,例如,狀態(tài)INFL_verb_6的狀態(tài)包含表示為“SURU”的分析(它對應(yīng)于分析中詞形變化變的名稱)。在圖9中“Next States”部分的列項(xiàng)“INFL_Verb_6:SURU”指示,只有INFL_verb_6詞素的SURU分析能夠跟隨INFL_vADJ_kattari詞素。此外,為了選擇詞素可以包括選擇信息(圖7的步59),下面將作更詳細(xì)的說明。
圖8的流程圖提供對詞尾分析和主詞匯查找27中簡單重復(fù)執(zhí)行的各步的概觀。最初,緊靠HPB左邊的以平假名結(jié)尾的串在主詞匯96(圖7)中被查找以識(shí)別帶有零長度詞尾分析的平假名字符(步61)。接著,輸入文本56的子段被處理以產(chǎn)生帶有選擇信息80的詞尾形態(tài)圖(圖8中步62)。下面將要詳述選擇邊界被插入到形態(tài)圖中。尤其是,表示選擇的邊界的下劃線可被插入到形態(tài)圖中。在詞尾分析期間,當(dāng)碰到下劃線時(shí),產(chǎn)生一選擇偏移量59,識(shí)別輸入文本中從下一選擇的邊界(或相繼的選擇邊界之間)算起的字符數(shù)。此詞尾分析使用形態(tài)文件58中包含的詞素。通常,實(shí)現(xiàn)圖10中描述的步驟為每個(gè)在形態(tài)文件58中找到匹配的詞素的外觀表述。在詞尾分析中,從硬斷詞開始從右到左進(jìn)行處理并繼續(xù),直到再?zèng)]有任何字符與存儲(chǔ)在形態(tài)文件58中的詞素的外觀表述相匹配,或者直到達(dá)到另一個(gè)硬斷詞。最初,通過查找詞素“Analysis”部分中外觀表述所指示的字符,和正在被處理的輸入文本56的子段中的字符找到匹配的外觀表述(圖10中步68)包含匹配外觀表述的分析詞形變化表被記下(步70)而且詞素的下一狀態(tài)被識(shí)別(步72),從而確定是否實(shí)際的下一狀態(tài)與詞素的“Next States”部分中指出的任何下一狀態(tài)對應(yīng)(步74),內(nèi)部緊接的詞素狀態(tài)是前一狀態(tài),因?yàn)榉治鎏幚韽挠业阶?,?nèi)部的詞形圖是所說明的翻轉(zhuǎn)的型式。如果下一狀態(tài)與下一狀態(tài)子段的那些列表之一匹配,該分析被加入形態(tài)圖80(步76),否則該分析不加到形態(tài)圖中,此處理按一個(gè)詞素接一個(gè)詞素地連續(xù)進(jìn)行直到全部可能存在的分析都做完。
圖11描述了圖6中由括號(hào)55指示的部分輸入串的詞尾形態(tài)圖80的示例。該圖包括一些結(jié)點(diǎn)82,它們由以矩陣偏移量表示的指針84連接起來。詞素的外觀表述83也被表示出來,并且得分顯示在圓括號(hào)中。結(jié)點(diǎn)82的格式在圖12中被描述,每個(gè)結(jié)點(diǎn)82包含一字符字段86,為識(shí)別相關(guān)字符或詞素的結(jié)點(diǎn),指定一16位的單一碼值(可以是由4個(gè)16進(jìn)制數(shù)字表示的)。如上所述,中間字符(metacharacters)通過這種單一碼值被編碼,采用特別擴(kuò)展字符范圍f800-feff或其附近的部分,結(jié)點(diǎn)可能被“超載”,如圖12中虛線87所示以指示下劃線。每個(gè)結(jié)點(diǎn)82還包括標(biāo)志字段88,其中存儲(chǔ)的一標(biāo)志指示是否有下指針,以及一標(biāo)志指示是否已經(jīng)達(dá)到字的結(jié)尾。結(jié)點(diǎn)還包含下指針字段84,用以保存一下指針,該指針的形式是相對于形態(tài)圖中下一結(jié)點(diǎn)的偏移量。于是,此詞尾形態(tài)圖80既存儲(chǔ)有拼寫信息又存儲(chǔ)形態(tài)信息,指示選擇信息的下劃線包含在拼寫信息中。這便于更緊湊地表示這樣的數(shù)據(jù)。
對輸入文本56的每個(gè)子段在詞尾形態(tài)圖80中的每個(gè)路徑予以評分(圖8中步64)以及調(diào)整這些得分(圖3中步39)。得分的例子顯示在圖11的圓括號(hào)中。得分的值決定于路徑中的字符數(shù),分析的深度(樹的深度是從根到分析端葉結(jié)點(diǎn))以及intra-SPB詞素雙粒的概率。因此,通向詞尾形態(tài)圖每個(gè)葉的路徑值最初用圖3所述的表來計(jì)算并使用intra-SPB詞素雙粒概率來稍做升降(將在以后作更詳細(xì)的說明)。熟悉本專業(yè)的人員必然會(huì)了解,這張表只不過是為了舉例說明,而其它的評分方法也都可采用。正如從圖13的表中可以見到的,評分強(qiáng)調(diào)了分析,它有著大量的字符和更深的等級數(shù)目。
系統(tǒng)維持intra-SPB詞素雙粒概率和SPB間詞素雙粒概率。這種概率是通過分析加標(biāo)簽的素材和確定這樣的intra-SPB詞素雙粒及inter-SPB詞素雙粒的發(fā)生概率而得到的。舉例有助于說明intra-SPB詞素雙粒和inter-SPB詞素雙粒的意義。給定二個(gè)SPB′s A和B,以及在SPB A中的詞素a1,a2,a3,在SPB B中的詞素b1,b2,b3(這兩個(gè)SPB′s可以表示為/a1 a2 a3/b1 b2 b3/),inter-SPB雙粒詞素由二個(gè)詞素形成,這二個(gè)詞素是跨越詞組邊界相鄰SPB′s的最后詞素(即,a3和b3)。intra-SPB雙粒數(shù)據(jù)指的是在SPB′s中詞素之間的雙粒數(shù)據(jù)。所以,存在的intra-SPB雙粒有BEGIN和a1,a1和a2,a2和a3,a3和END,BEGIN和b1,b1和b2,b2和b3及b3和END。
如上所述,intra-SPB詞素雙粒概率被用到每個(gè)路徑上,這個(gè)路徑連接葉與詞尾形態(tài)圖80的根,包含不大可能是intra-SPB詞素雙粒路徑的得分被調(diào)低,而包含很可能出現(xiàn)的intra-SPB詞素雙粒路徑,它的得分要上升。
一旦在步64中對詞尾形態(tài)圖的全部路徑計(jì)算好得分,該得分就被存儲(chǔ),并且最高得分的路徑被保留(圖8的步66)。路徑被保留或丟棄的門限靠經(jīng)驗(yàn)得到。例如,一種辦法是每個(gè)形態(tài)圖的頂上20個(gè)得分路徑被保留。
字切分功能22接著執(zhí)行詞干分析30以識(shí)別詞干(圖3中步40)。詞干分析30的中心目標(biāo)是識(shí)別哪些字符組成詞干,對它附上詞尾粘附詞素。對包括數(shù)字,計(jì)數(shù)或其它計(jì)量單位(例如,日歷,比如“06/27/96”,數(shù)量,比如“2yen(2日元)”及街道地址)這樣的詞干是例外,這種特別類型的詞干是在詞尾分析期間被分析的。特別的詞素被提供并且向它們提供特別的零長度的MCat(LNONE)。圖14的方塊圖描述了詞干分析30的主要功能部件。通常,輸入文本和用詞尾分析得到的詞尾形態(tài)圖89被詞干分析30所利用。詞干分析30包括主詞匯查找90,拼寫匹配92,不常見詞干邊緣評分強(qiáng)制93,漢字雙粒分析94和inter-SPB加權(quán)95。詞干分析36的結(jié)果包括文本,詞尾變換形態(tài)圖和部分軟斷詞(SPB)分析95(下面將更詳細(xì)地說明)。
主詞匯查找90的目標(biāo)是識(shí)別不應(yīng)被當(dāng)成粘附詞素處理的字,并且修正對這種字的處理。例如,副詞可能經(jīng)常被當(dāng)成粘附詞素處理因?yàn)樗钠磳戭愃朴谡掣皆~素,但是應(yīng)當(dāng)作為獨(dú)立的字處理。主詞匯96按有向非周期加權(quán)圖組織(像形態(tài)詞尾和詞尾樹)并持有副詞,頻繁使用的字(動(dòng)詞,形容詞等)以及用詞匯化的復(fù)合字。通常,主詞匯96持有不應(yīng)考慮為詞尾粘附詞素的字。主詞匯96被分成一些文件,一個(gè)文件供給一個(gè)MCat。在主詞匯96中的每個(gè)文件包含一些字的表,由這些文件形成的集合主詞匯96按詞類用語(Parts of Speech)分類,然后按單一碼反序分類。
圖15是一流程圖用以說明對給定的詞尾形態(tài)詞尾圖,在主詞匯查找90中執(zhí)行的步驟。詞尾樹的最高得分葉在主詞匯中被查找(圖15中步102)。為了效率,只在主詞匯96中查找最高得分的葉。如上所述,一個(gè)例外是對于以平假名結(jié)束無詞尾的串分析,根據(jù)缺省它具有詞尾得分為1(對應(yīng)于圖13中具有長度為零并且為一個(gè)詞素的項(xiàng)目)但它永遠(yuǎn)要被查找。它在正確分析情況下,要選取最低得分葉是不可能的,所以不必去確定是否任何識(shí)別的詞尾粘附詞素應(yīng)作為獨(dú)立的字來替代處理。關(guān)系到多少數(shù)量或百分比的葉應(yīng)在主詞匯中查找的門限可被調(diào)節(jié)并可作為選取最優(yōu)化的這種選擇。如在主詞匯中發(fā)現(xiàn)匹配項(xiàng)(見圖15的步104),將會(huì)指出這些葉應(yīng)作為獨(dú)立的字而不是一粘附的詞素處理。得分賦給每個(gè)當(dāng)成獨(dú)立字的匹配主詞匯項(xiàng),而且以獎(jiǎng)勵(lì)提供得分更有利在上面粘附詞素分析加權(quán)此種分析。通常,只可能有n個(gè)可能的匹配,這里n是最長的詞干的字符長度(圖15中步106),分析提供給每個(gè)主詞匯項(xiàng)。另一方面,如果在步104沒有找到匹配,得分將不被處理。
詞干分析接著執(zhí)行拼寫匹配92,如上面已經(jīng)討論過的,拼寫是為MCat的字符類型模板。例如,拼寫KK(它代表漢字-漢字)是對VN2MCat的有效拼寫。拼寫指示在自立語詞組中所找的字符類型模式。拼寫匹配92利用拼寫模板98,它存儲(chǔ)有詞干的拼寫模式以及該拼寫出現(xiàn)頻度的記錄。
給定的詞尾形態(tài)圖80的每個(gè)葉持有一個(gè)值,用以指出一些字符的詞類用語或處在自立語詞組詞尾部分葉上的字符除零長詞干外,至少由詞尾樹表示的詞尾粘附詞素左邊的字符之一是詞干的一部分。拼寫匹配92設(shè)法識(shí)別這些字符的那些是詞干。
圖16的流程圖說明拼寫匹配92期間執(zhí)行的步驟。對每個(gè)葉的分析,與葉相關(guān)的詞類用語(它識(shí)別與詞干關(guān)聯(lián)的MCat)被認(rèn)為是詞尾分析的結(jié)果(圖16中步107)。因?yàn)槠磳懺~干模板98由詞類用語構(gòu)成,確定出的葉的MCat用作索引以定位對具有該MCat的詞干可能的拼寫的模式(圖16中步109),識(shí)別匹配拼寫(圖16中步110),分析詞頭(步111)以及為該匹配拼寫28產(chǎn)生自立語詞組(SPB)分析(圖16的步112)。下面將詳細(xì)地討論SPB分析。
例子有助于說明拼寫匹配如何進(jìn)行。假定要處理的日文字符串是“h.KHK.hhhKKhhP”,在該例中字母具有如下的意義,H代表平假名字符它不被描繪為粘附詞素。h代表的平假名它是粘附詞素的詞符。K代表漢字字符,而P表示標(biāo)點(diǎn)符號(hào),圓點(diǎn)用以標(biāo)識(shí)詞頭,詞干和詞尾之間的隔斷。還假定詞尾分析之一(hhhKKhh)指定“GOsu”MCat類別。另外,假定對GOsu MCat類別的拼寫詞干模板98是以下這些K,,4HK,,0HH,,0KK,,0H,,0KHK,,0HHHHHH,,0HKHK,,0.
在以上陳述的拼寫模板中,第一列指示字符類型模板,第二列指示字符匹配信息(在全部例子中都是空的)而第三列指示該拼寫模板模式出現(xiàn)頻度的記錄。這些列由逗號(hào)分隔。在此例中,第一,第二,第六和第八拼寫匹配輸入。這些繼詞尾分析在詞組的詞干部分的開始處按從右到左的方式被匹配。在本例中,第六個(gè)分析是最佳匹配因?yàn)樗ヅ淙吭~干字符,并考慮到成功的詞頭分析。
拼寫模板的另一例子有助說明在拼寫模板中第二列的使用,它指出字符匹配的信息VVV,,0HHHH,0HHHH,1212,0
VVVV,1212,0KK,,0.
對第三個(gè)拼寫在第二列中的值“1212”指出為匹配這個(gè)拼寫,第一與第三字符和第二與第四字符必須相同。所以,為了第三拼寫匹配,不僅全部字符必須是平假名字符,而且第一字符與第三字符必須相同和第二字符與第四字符必須相同。第二列亦可以持有字符的標(biāo)識(shí),它指示在外觀表述中(即,輸入串)特定字符必須等同于在第二列中給定位置指示的字符。
通常,為輸入文本串的每個(gè)子段產(chǎn)生一SPB分析樹,此輸入文本串由HPB′s定界。在這種樹115中每個(gè)SPB結(jié)點(diǎn)與輸入文本的給定位置相聯(lián)系,并且包括一字段116,它在文本陣列保存SPB開始處的偏移量。SPB結(jié)點(diǎn)115也包括一字段117它保存SPB的長度(即字符的數(shù)目)。字段118標(biāo)識(shí)在HPB分析樹中SPB的父輩SPB。字段119保存了SPB結(jié)點(diǎn)中共存的不同自立語詞組分析的數(shù),而字段120保存對該SPB的組合得分。字段121保存輔助詞干得分以及字段122保存指出在SPB樹中該SPB層的數(shù)值。
對每個(gè)SPB結(jié)點(diǎn),保持一自立語詞組分析陣列。每個(gè)自立語詞組分析有一像在圖17B中所描述的結(jié)構(gòu)。特別是,每個(gè)自立語詞組分析123持有字段124,以為詞頭形態(tài)圖中詞頭結(jié)點(diǎn)提供偏移量,以及字段125保存一值指示到詞尾形態(tài)圖中詞尾結(jié)點(diǎn)的偏移量。字段126持有到一子段的偏移量,該子段中保存有選擇信息。字段127保存與自立語詞組分析有關(guān)的詞頭分析得分和與自立語詞組分析有關(guān)的詞尾分析得分。字段128保存詞干部分的得分(它是根據(jù)相關(guān)拼寫的頻度)而字段129保存有inter-SPB號(hào),以便儲(chǔ)存這個(gè)值。
圖17C可幫助說明對每個(gè)HPB(即被HPB′s分隔的文本)產(chǎn)生的SPB結(jié)點(diǎn)樹的例子。SPB分析樹由SPB結(jié)點(diǎn)形成,它具有像上面所討論的結(jié)構(gòu)。每個(gè)結(jié)點(diǎn)指向具有如同圖17B所描述結(jié)構(gòu)的分析陣列。
為了增加相似性,詞尾分析依賴于產(chǎn)生出高頻度拼寫模式的詞干分析,字切分功能22酬報(bào)這種詞尾分析。尤其是,當(dāng)匹配拼寫的結(jié)果是高頻度的拼寫模式時(shí),詞尾分析獲得額外得分的獎(jiǎng)勵(lì)。因此,當(dāng)詞尾分析被連到經(jīng)自立語詞組(SPB)分析結(jié)構(gòu)的產(chǎn)生的拼寫模式匹配時(shí),如果該拼寫模式是高出現(xiàn)率的模式(見圖16中步113),則詞尾分析得到獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)是靠經(jīng)驗(yàn)根據(jù)對訓(xùn)練素材產(chǎn)生最佳結(jié)果的選擇值給出。
圖14說明在詞干分析30期間作為獨(dú)立部分的漢字雙粒分析94。這種解釋可能引起某些誤解在于實(shí)際上漢字雙粒分析被編排到詞干分析期間執(zhí)行的其它分析中。漢字雙粒是漢字字符雙粒,它們在切分復(fù)合名詞時(shí)很有用(圖3的步41)。漢字雙粒分析94使用一漢字雙粒集100,它們像前面關(guān)于硬斷詞分析26中討論的字符雙粒那樣地被存儲(chǔ)。漢字雙粒100用以識(shí)別對應(yīng)于在拼寫匹配物中的最長可接受漢字字符串的全部最大匹配物長度,并且說明復(fù)合名詞。漢字雙粒100也用于限制拼寫匹配,以便不允許拼寫匹配跨越硬斷詞(圖14中步93)。
如圖14所示,對不常見詞干邊緣的得分強(qiáng)制用以幫助降低可能的SPB分析,這種分析中包含低概率的inter-SPB詞素雙粒(圖4中步95)。例如,對圖17C中所示所說明的SPB分析樹,SPB1和SPB2的inter-SPB詞素雙粒值應(yīng)被檢查,以確定是對該分析降低還是提升。對intra-SPB和inter-SPB詞素雙粒的存儲(chǔ)位是根據(jù)訓(xùn)練素材中雙粒概率的記錄而得出的。
匹配拼寫識(shí)別結(jié)束后(圖16中步112),使用詞頭分析32以確定什么粘附詞頭詞素要粘附于詞干上(圖16中步111)。零長度(LNONE)MCats是一例外它們既沒有匹配拼寫也沒有主詞匯項(xiàng),雖然仍產(chǎn)生SPB結(jié)點(diǎn)但對零長(LNONE)MCats的詞尾跳過詞頭分析。如圖18所示,輸入文本120的子段被處理以實(shí)現(xiàn)為存儲(chǔ)詞素的詞頭形態(tài)文件132執(zhí)行詞頭分析32。在詞頭形態(tài)圖中131的結(jié)果持有該輸入文本子段的全部可能的分析,詞頭形態(tài)圖131象詞尾形態(tài)圖那樣被組織但用以處理詞頭粘附詞素分析。詞頭粘附詞素附在詞干的左邊而詞尾粘附詞素是附在詞干的右邊。選擇信息133被提供并如同選擇信息插入詞尾形態(tài)圖那樣插到詞頭形態(tài)圖中。
圖19的流程表現(xiàn)了詞頭分析32執(zhí)行步驟的概況。詳細(xì)說,通過識(shí)別可能在詞干分析上的粘附詞素建立詞頭形態(tài)圖124(圖19中步124)。使用評分表評分詞頭樹中的各路徑(圖19中步126)。然后根據(jù)經(jīng)驗(yàn)得到的截?cái)帱c(diǎn),保留一些最高得分路徑,并且詞頭形態(tài)圖路徑經(jīng)SPB分析123的字段124,與各自的軟斷詞分析結(jié)構(gòu)相連系(圖19中步128)。
如上所述,詞頭樹使用詞頭形態(tài)文件132中的詞素而建立。匹配從給定詞干分析左邊第一個(gè)字符開始。詞素的外觀表述與處在詞干左邊的字符匹配以識(shí)別匹配的詞素。此過程繼續(xù)直到給定詞干分析的全部分析結(jié)束。詞頭分析深度很少超過一個(gè)詞素。
上面所說的步驟不斷重復(fù)直至該子段全部分析完。
這里,字切分功能22已經(jīng)產(chǎn)生了全部結(jié)構(gòu),它需要選取最佳分析自立語詞組和獨(dú)立的輸出標(biāo)記33(圖3中步44)。字切分功能22接著必須選取最佳SPB分析,如圖20中所示,字切分功能22計(jì)算SPB分析的得分(圖20中步130)。這些得分如上所述已經(jīng)被調(diào)整(圖3中步43)。每個(gè)分析的得分是與SPB分析相關(guān)的詞尾路徑和詞頭路徑得分相結(jié)合。具有最高附加得分的SPB分析被選取當(dāng)成最佳分析,根據(jù)它繼續(xù)向左進(jìn)行分析,萬一兩個(gè)SPB分析具有相同附加得分,通過選取具有最高詞干得分的SPB斷開連結(jié)(圖20的步132)。此分析可以被用于組合輸出標(biāo)記33(圖2),輸出標(biāo)記包含傳送到應(yīng)用程序20的分析信息。下面的討論將涉及三個(gè)說明性的應(yīng)用程序。
如果在輸入文本部分中(見步45)還有更多待處理詞組圖3的步37到45可以重復(fù)進(jìn)行(注意在圖2中詞頭分析后的返回箭頭)。另外,如果有附加部分留待處理(見圖3的步46)則對該輸入文本的附加部分重復(fù)步36-45(注意圖2中從方塊31開始的返回箭頭)。
第一應(yīng)用程序涉及在輸入文本中字符的粒度選擇,特別地,如上面曾討論的,下劃線字符包括在形態(tài)圖中以指示選擇邊界,這種選擇邊界可被應(yīng)用程序使用以確定選擇的粒度。通常,在圖21A中描述的步驟是為這個(gè)應(yīng)用程序執(zhí)行的。下劃線在輸入文本部分中所處位置的偏移量被找到(圖21A中步134)。而后該偏移量被返回到應(yīng)用程序中(圖21A中步136)。接著應(yīng)用程序使用這偏移量去規(guī)定選擇邊界(一般是指的選擇處是開始和結(jié)尾)。這些邊界有助確定選擇的粒度(圖21A中步138)。
在第二個(gè)應(yīng)用程序中可被使用的由本發(fā)明優(yōu)選實(shí)施例提供的字切分是自動(dòng)概括的。自動(dòng)概括設(shè)法識(shí)別適當(dāng)?shù)馗爬ㄎ谋镜膬?nèi)容的輸入文本中關(guān)鍵的句子或詞組、自動(dòng)概括可以尋找特別的字,例如“in summary”這些是句子或詞組中持有的概括信息的良好標(biāo)記。為了概括,應(yīng)用程序希望知道在詞組或句子中何處詞干開始以及詞尾粘附詞素位于何處。
第三應(yīng)用程序是內(nèi)容索引。內(nèi)容索引注重識(shí)別位于句子或詞組中的詞干,以獲得關(guān)于句子或詞組內(nèi)容的信息并且為此內(nèi)容做索引,所以在這種情況下對句子或詞組的詞干部分的偏移量被傳送給該應(yīng)用程序。
圖21B有一流程它說明了在高層上自動(dòng)概括內(nèi)容的索引應(yīng)用程序執(zhí)行的步驟。字切分功能22返回標(biāo)識(shí)所要的成分(即詞干或粘附詞素)的偏移量給應(yīng)用程序(圖21B中步14)。此偏移量已用于識(shí)別該成分的位置并且編譯關(guān)于該成分的頻度信息(圖21B中步142)。
在參照其優(yōu)選實(shí)施例已對本發(fā)明予以說明的同時(shí),熟悉本領(lǐng)域的專業(yè)人員會(huì)了解到,各種形式上和細(xì)節(jié)上的改變可以做出而不脫離在所附權(quán)利要求書中規(guī)定的本發(fā)明的精神。例如字切分功能可以用在上述之外的應(yīng)用程序中,如象設(shè)法提供句子的句法分析的自然語言處理應(yīng)用。另外,此方法已應(yīng)用于除日文外的一些自然語言里。
權(quán)利要求
1.在具有存儲(chǔ)器的計(jì)算機(jī)系統(tǒng)中,一種表示自然語言字符輸入串的分析方法,包括計(jì)算機(jī)實(shí)現(xiàn)的下列步驟處理輸入串,以識(shí)別串中的自然語言字符和串中的詞素;及為了輸入串的形態(tài)分析,在存儲(chǔ)器中生成一結(jié)構(gòu),其中存有保存拼寫和詞素變換的有向非周期圖。
2.權(quán)利要求1的方法,其中的輸入串包括日文字符。
3.權(quán)利要求1的方法,其中處理輸入串的步驟包括處理輸入串,以識(shí)別粘附于串上的粘附詞素。
4.權(quán)利要求3的方法,其中的詞尾粘附詞素被識(shí)別。
5.權(quán)利要求3的方法,其中的詞頭粘附詞素被識(shí)別。
6.在具有存儲(chǔ)器的計(jì)算機(jī)系統(tǒng)中,一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有用來實(shí)現(xiàn)表示自然語言字符輸入串的分析方法的指令,包括計(jì)算機(jī)實(shí)現(xiàn)的下列步驟處理輸入串,以識(shí)別串中的自然語言字符和串中的詞素;及為輸入串的形態(tài)分析,在存儲(chǔ)器中生成一結(jié)構(gòu),其中存有保存拼寫和詞素變換的有向非周期圖。
7.權(quán)利要求6的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中在介質(zhì)上的指令處理日文字符輸入串。
8.在計(jì)算機(jī)系統(tǒng)中,一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)一有向非周期圖,它包括結(jié)點(diǎn)及變換,用以指明日文字符輸入串中字符的本體和序列;及結(jié)點(diǎn)及變換,用以指明日文字符輸入串中的詞素。
9.在計(jì)算機(jī)系統(tǒng)中,一種方法,它包括計(jì)算機(jī)實(shí)現(xiàn)的步驟為提供n粒模板用以指出在詞干中所找字符類型的模式,并為每個(gè)模板提供有關(guān)在詞干中出現(xiàn)的模板相似性的信息;至少某些模板匹配部分輸入串以識(shí)別匹配的模板;使用匹配的模板去識(shí)別輸入串的那部分是詞干。
10.權(quán)利要求9的方法,其中有些模板是用于日文各步驟,且輸入串包括日文字符。
11.權(quán)利要求9的方法,其中的模板提供給不同形態(tài)類別,并且用這些模板對單個(gè)形態(tài)類別實(shí)現(xiàn)匹配。
12.在計(jì)算機(jī)系統(tǒng)中,一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用于存儲(chǔ)指令用于提供n粒模板用以指出在詞干中所找字符類型的模式,并為每個(gè)模板提供有關(guān)在詞干中出現(xiàn)的模板相似性的信息。至少某些模板與部分輸入串匹配,以識(shí)別匹配的模板。使用匹配的模板去識(shí)別輸入串的那部分是詞干。
13.權(quán)利要求12的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中一些模板持有日文字符,且這些指令以包括日文字符的輸入串匹配模板。
14.在計(jì)算機(jī)系統(tǒng)中,一種方法,它包括計(jì)算機(jī)實(shí)現(xiàn)的步驟為提供日文字符的輸入串;及通過首先處理最右字符,并在第一字符的左邊依次處理字符,以從右到左的方式,對輸入串執(zhí)行形態(tài)分析,以識(shí)別輸入串中的粘附詞素及至少一個(gè)詞位。
15.權(quán)利要求14的方法,其中的形態(tài)分析識(shí)別粘附于詞干上的詞尾詞素。
16.權(quán)利要求14的方法,其中的形態(tài)分析識(shí)別粘附于詞干上的詞頭詞素。
17.在計(jì)算機(jī)系統(tǒng)中,一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)的指令用于接收日文字符的輸入串;及通過首先處理最右字符,并在第一字符的左邊依次處理字符,以從右到左的方式,對輸入串執(zhí)行形態(tài)分析,以識(shí)別輸入串中的粘附詞素及至少一個(gè)詞位。
18.在計(jì)算機(jī)系統(tǒng)中,一種方法,它包括計(jì)算機(jī)實(shí)現(xiàn)的步驟為對日文字符的輸入串執(zhí)行形態(tài)分析,產(chǎn)生具有表示字符或詞素的結(jié)點(diǎn),及把結(jié)點(diǎn)互相連接的指針的有向非周期的圖,其中該圖有一個(gè)根結(jié)點(diǎn)及一些葉結(jié)點(diǎn),且每個(gè)葉結(jié)點(diǎn)具有從根結(jié)點(diǎn)指到葉結(jié)點(diǎn)的路徑,以表示包含粘附詞素的至少一部分輸入串的形態(tài)分析;對根結(jié)點(diǎn)到葉結(jié)點(diǎn)的路徑評分以支持包含對大部分輸入串分析的路徑及支持包含大量粘附詞素的路徑;及選擇最高得分路徑作為用于部分輸入串的形態(tài)分析。
19.權(quán)利要求18的方法,其中的形態(tài)分析識(shí)別詞尾粘附詞素。
20.權(quán)利要求18的方法,其中的形態(tài)分析識(shí)別詞頭粘附詞素。
21.在計(jì)算機(jī)系統(tǒng)中,一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)的指令用于對日文字符的輸入串實(shí)現(xiàn)形態(tài)分析,產(chǎn)生具有表示狀態(tài)或詞素的結(jié)點(diǎn)及把結(jié)點(diǎn)互相連接的指針的有向非周期圖,其中該圖有一個(gè)根結(jié)點(diǎn)和一些葉結(jié)點(diǎn),且每個(gè)葉結(jié)點(diǎn)具有從根結(jié)點(diǎn)指向葉結(jié)點(diǎn)的路徑,表示包括粘附詞素的至少部分輸入串的形態(tài)分析;對根結(jié)點(diǎn)到葉結(jié)點(diǎn)的路徑評分以支持包含對大部分輸入串分析的路徑及支持包含大量粘附詞素的路徑;及選擇最高得分路徑作為用于部分輸入串的形態(tài)分析。
22.在計(jì)算機(jī)系統(tǒng)中,一種處理字符輸入串的方法,包括計(jì)算機(jī)實(shí)現(xiàn)的下列步驟采用統(tǒng)計(jì)技術(shù),在輸入串中,對斷詞進(jìn)行識(shí)別,這樣以斷詞確定詞組界限。對輸入串中的每個(gè)詞組,識(shí)別可能存在的詞尾粘附詞素,并生成這些詞素的圖形表示;通過把輸入串中的字符同每次識(shí)別的詞干中的字符類型模式的詞干字符模板進(jìn)行比較,對詞組中可能存在的詞干進(jìn)行識(shí)別。對每個(gè)可能詞干中可能存在的詞頭粘附詞素進(jìn)行識(shí)別,并生成這些詞頭粘附詞素的圖形表示;及選擇了可能存在的詞尾邊界詞素,詞干,及詞頭邊界詞素的最好組合,作為最佳特性輸入串對輸入串中詞組分析。
23.權(quán)利要求22的方法,其中的輸入串包括日文字符;
24.權(quán)利要求22的方法,其中在識(shí)別斷詞中所用的統(tǒng)計(jì)技術(shù),取決于切分單粒和切分雙粒的概率。
25.權(quán)利要求22的方法,其中可能存在的一些詞干的識(shí)別取決于詞干字符模板出現(xiàn)的概率。
26.在計(jì)算機(jī)系統(tǒng)中,一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)的指令用于采用統(tǒng)計(jì)技術(shù),在輸入串中對斷詞進(jìn)行識(shí)別,這樣以斷詞確定詞組界限;對輸入串中的每個(gè)詞組,識(shí)別可能存在的詞尾粘附詞素,并生成這些詞素的圖形表示;通過把輸入串中的字符同每次識(shí)別的詞干中的字符類型模式的詞干字符模板進(jìn)行比較,對詞組中可能存在的詞干進(jìn)行識(shí)別;對每個(gè)可能的詞干識(shí)別可能存在的詞頭粘附詞素,并生成這些詞頭粘附詞素的圖形表示;及選擇可能存在的詞尾邊界詞素,詞及詞頭邊界詞素的最好組合,作為最佳特性的輸入串對輸入串中詞組分析。
27.權(quán)利要求26的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中在識(shí)別斷詞所用的統(tǒng)計(jì)技術(shù),取決于切分單粒和切分雙粒的概率。
28.權(quán)利要求26的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中可能存在的詞干的識(shí)別取決于詞干字符模板出現(xiàn)的概率。
29.權(quán)利要求26的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中的輸入串包括日文字符。
30.一種計(jì)算機(jī)系統(tǒng),包括詞組切分分析部分,用來識(shí)別字符輸入串中的硬斷詞;詞尾分析器,用來分析輸入串,以識(shí)別輸入串中可能存在的詞尾;詞干分析器,用來識(shí)別輸入串中可能存在的詞干;詞頭分析器,用來識(shí)別輸入串中可能存在的詞頭;及選擇器,根據(jù)至少部分輸入串的表述,從已經(jīng)被識(shí)別的那些中(如果存在)選擇詞干,詞尾及詞頭。
31.權(quán)利要求30的計(jì)算機(jī)系統(tǒng),其中的輸入串主要包括日文字符。
32.在缺少全面詳細(xì)的字典的計(jì)算機(jī)系統(tǒng)中,一種方法,它包括下列步驟提供字符輸入串,所說的字符在字符間缺少空白間隔;及處理該輸入串,以識(shí)別詞中的字和詞干及詞綴。
33.權(quán)利要求32的方法,其中的處理包括識(shí)別粘附在詞干上的詞尾粘附詞素。
34.權(quán)利要求32的方法,其中的處理包括識(shí)別粘附在詞干上的詞頭粘附詞素。
35.權(quán)利要求32的方法,還包括自然語言處理中用于識(shí)別字,詞干和詞綴的步驟。
36.權(quán)利要求32的方法,還包括在輸入串的內(nèi)容檢索中用于識(shí)別字,詞干和詞綴的步驟。
37.權(quán)利要求32的方法,還包括在設(shè)法產(chǎn)生輸入串的概括的自動(dòng)概括應(yīng)用中,用于識(shí)別字,詞干和詞綴的步驟。
38.在缺少全面詳細(xì)的字典的計(jì)算機(jī)系統(tǒng)中,一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)的指令,執(zhí)行下列步驟提供字符輸入串,所說的字符在字符間缺少空白間隔;及處理輸入串,以識(shí)別詞中的字,詞干及詞綴。
39.權(quán)利要求38的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中的處理包括識(shí)別粘附在詞干上的詞尾粘附詞素。
40.權(quán)利要求38的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中的處理包括識(shí)別粘附在詞干上的詞頭粘附詞素。
41.權(quán)利要求38的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中的介質(zhì)還存儲(chǔ)在自然語言處理中用于識(shí)別詞,詞干和詞綴的指令。
42.權(quán)利要求38的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中的介質(zhì)還存儲(chǔ)在輸入串的內(nèi)容檢索中用于識(shí)別詞,詞干和詞綴的指令。
43.權(quán)利要求38的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中的介質(zhì)還存儲(chǔ)在設(shè)法產(chǎn)生輸入串的概括的自動(dòng)概括應(yīng)用中,用于識(shí)別詞,詞干和詞綴的指令。
44.在具有字符文本文檔的計(jì)算機(jī)系統(tǒng)中,及為選擇文本的輸入設(shè)備中,一種方法,包括下列步驟處理文檔文本,以得到文本的形態(tài)圖,在形態(tài)圖中插入一些標(biāo)記,以識(shí)別文本中的選擇邊界;及根據(jù)用戶使用輸入設(shè)備請求選擇的文本,使用標(biāo)記以識(shí)別作為結(jié)果選擇粒度,該粒度表示在文本中的那些字符被選擇。
45.為選擇文本及選擇包括字符文本的文檔,在具有輸入設(shè)備的計(jì)算機(jī)系統(tǒng)中,一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)的指令執(zhí)行下列步驟提供字符輸入串,所說的字符在字符間缺少空白間隔;及處理輸入串,以識(shí)別詞中的字,詞干及詞綴。
全文摘要
一字切分功能運(yùn)行以識(shí)別日文文本串中的字,該字切分功能執(zhí)行形態(tài)處理,以識(shí)別詞尾粘附詞素及詞頭粘附詞素,字切分功能還實(shí)現(xiàn)拼寫匹配,以識(shí)別可能的詞干字符,用評分探試程序去確定包括詞尾分析,詞干分析和詞頭分析的最佳分析。形態(tài)分析以有效壓縮的格式被存儲(chǔ),以使它們占有的存儲(chǔ)量最小及分析最大。詞尾,詞干及詞頭的形態(tài)分析以從右到左的方式執(zhí)行,字切分功能可以用在要求同一選擇粒度,自動(dòng)概括應(yīng)用,內(nèi)容檢索應(yīng)用和自然語言處理應(yīng)用的應(yīng)用程序中。
文檔編號(hào)G06F17/28GK1223733SQ97195935
公開日1999年7月21日 申請日期1997年6月25日 優(yōu)先權(quán)日1996年6月28日
發(fā)明者小帕特里克·H·哈爾思特德, 鈴木久已 申請人:微軟公司