專利名稱:信息處理裝置、信息處理方法、程序和記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理裝置、信息處理方法、程序和記錄介質(zhì)。更具體地,
本發(fā)明涉及適合于分析以電子形式(electronic form)的文本的信息處理裝置、 信息處理方法、程序和記錄介質(zhì)。
背景技術(shù):
通常,語形學分析包括將用自然語言寫成的文本劃分為作為語言學上有 意義的單元的詞素,從而提供逐詞素的信息(例如,語音部分)。這種分析是 用于自然語言處理的基本技巧之一并被廣泛實踐。
在傳統(tǒng)的語形學分析中,在詞典中所登記的詞是詞素的單元。基本上缺 少了兩個功能確定使用多個詞素間的關(guān)系的復合詞的功能;和將被登記在 詞典中作為復合詞的任何一個詞分割為多個詞素的功能。
如果需要從詞典中提取出以被分割的詞的形式的任何登記的復合詞,有 必要預先登記組成詞典中該復合詞的組成單元,或者預先登記組成所討論的 復合詞的最有意義的詞(例如見日本專利特許公開號2002-259426)。
發(fā)明內(nèi)容
如果上述與組成所討論的詞的所分割的詞相關(guān)聯(lián)地將每一個和每個復合 詞登記在詞典中,詞典將在容量上會變得十分龐大。此外,所登記的詞的數(shù) 量增長將使詞典的維護逐漸困難。
由于通常的語形學分析沒有確定使用多個詞素間的關(guān)系的任何復合詞的 功能,因此發(fā)明出與語形學分析無關(guān)的工具以進行諸如句法分析和對語形學 分析的結(jié)果的依賴性分析(dependency analysis )之類的分析,以便基于多個 詞素間的關(guān)系確定感興趣的復合詞。
與從語形學分析中獲取的詞素相關(guān)聯(lián)的詞信息被登記在詞典中。過去, 可能將除語形學分析外的句法分析和依賴性分析的結(jié)果安排以包括關(guān)于句法 和依賴性的信息,但是不能給其提供關(guān)于作為詞素的復合詞的信息。例如,假設(shè)包括術(shù)語"AAA股份公司"(AAA是個表示公司名字的專有 名詞)的句子經(jīng)過語形學分析。在傳統(tǒng)的語形學分析中,有兩種可能的結(jié)果。 如果術(shù)語"AAA股分公司,,已經(jīng)被登記在詞典中作為專有名詞,那么該分析 將跳過(yield) "AAA股份公司,,(專有名詞)。如果術(shù)語"AAA股份公司" 沒有被登記在詞典中作為專有名詞,那么該術(shù)語將被例證地劃分為"AAA" (專有名詞)和"股份公司"(普通名詞);或者劃分為"AAA"(專有名詞), "股份"(普通名詞),和"公司"(普通名詞)。
當沒有發(fā)現(xiàn)被登記在詞典中的術(shù)語"AAA股份公司,,(專有名詞)被劃 分為"AAA"(專有名詞)和"股份公司"(普通名詞);或者是"AAA"(專 有名詞),"股份"(普通名詞),和"公司"(普通名詞)時,語形學分析的這 些結(jié)果被施加諸如句法分析和依賴性分析的其它處理,從而檢測到復合詞 "AAA股份公司"。然而,該處理無法提供帶有作為語音或朗讀的部分的詞 信息的所獲取的復合術(shù)語。
如上所述,平常的語形學分析受在詞典中登記作為單元的詞的嚴重影響。 難以獲取關(guān)于小于在詞典中所登記的單元的任何詞素的信息,或者難以獲得 關(guān)于可能通過組合詞素而創(chuàng)建的任何復合詞的信息。
本發(fā)明考慮到以上的情況,提供了用于獲取除了在詞典中登記的詞以外 的分析結(jié)果的方案。
在執(zhí)行本發(fā)明并根據(jù)其第一實施例時,提供一種用于分析文本數(shù)據(jù)的信 息處理裝置,包括獲取部件,用于獲取所述文本數(shù)據(jù);詞素信息登記部件, 用于登記在語形學地分析所述文本數(shù)據(jù)中使用的詞素信息;語形學分析部件, 用于根據(jù)由所述詞素信息登記部件登記的所述詞素信息來分析由所述獲取部 件獲取的所述文本數(shù)據(jù),從而創(chuàng)建以構(gòu)成所述文本數(shù)據(jù)的詞素的表格的形式 的語形學分析信息;復合詞處理規(guī)則登記部件,用于登記用于創(chuàng)建未被登記 在所述詞素信息登記部件中的復合詞的復合詞處理規(guī)則;以及復合詞處理部 件,用于通過使用被登記在所述復合詞處理規(guī)則登記部件中的所述復合詞處 理規(guī)則,來將由所述語形學分析部件創(chuàng)建的所述語形學分析信息中所包括的 所述詞素組合為未被登記在所述詞素信息登記部件中的所述復合詞,并用于 檢測所創(chuàng)建的復合詞。
優(yōu)選地,被登記在所述復合詞處理規(guī)則登記部件中的所述復合詞處理規(guī) 則可以指定用于從多個相鄰詞中組合的復合詞中所包括的詞的條件。優(yōu)選地,被登記在所述復合詞處理規(guī)則登記部件中的所述復合詞處理規(guī) 則可以包括用于給vMv多個詞中組合的復合詞才是供由語音、朗讀和詞開銷的部 分構(gòu)成的至少一個信息條目的描述。
優(yōu)選地,如本發(fā)明的第一實施例所實現(xiàn)的信息處理裝置還可以包括輸出 部件,用于輸出由所述語形學分析部件創(chuàng)建的所述語形學分析信息以及由所 述復合詞處理部件檢測的所述復合詞。
優(yōu)選地,如本發(fā)明的第 一 實施例所實現(xiàn)的信息處理裝置還可以包括分割 詞素提取部件,用于根據(jù)被登記在所述詞素信息登記部件中的所述詞素信息 來進一步分析在由所述語形學分析部件創(chuàng)建的所述語形學分析信息中包括的 所述詞素,,人而從所述詞素中提取分割詞素。
優(yōu)選地,如本發(fā)明的第 一 實施例所實現(xiàn)的信息處理裝置還可以包括輸出 部件,用于輸出由所述語形學分析部件創(chuàng)建的所述語形學分析信息、由所述 復合詞處理部件檢測的所述復合詞、和由所述分割詞素提取部件提取的所述 分割詞素。
優(yōu)選地,被登記在所迷詞素信息登記部件中的所述詞素信息可以包括關(guān)
于感興趣的詞素是否是復合詞的信息;其中所述語形學分析部件可以在所述
語形學分析信息中并入關(guān)于組成以所述語形學分析信息的表格的形式的所述 文本數(shù)據(jù)的詞素的每個是否被登記在所述詞素信息登記部件中作為復合詞的
信息;以及其中如果參考所述語形學分析信息發(fā)現(xiàn)感興趣的詞素被登記在所
述詞素信息登記部件中作為復合詞,所述分割詞素提取部件可以提取組成所 述詞素的所述分割詞素。 . 根據(jù)本發(fā)明的第二實施例,提供一種供用于分析文本數(shù)據(jù)的信息處理裝
置使用信息處理方法,,所述信息處理方法包括以下步驟獲取所述文本數(shù)據(jù); 根據(jù)用于語形學地分析所述文本數(shù)據(jù)的詞典數(shù)據(jù)來分析所獲取的文本數(shù)據(jù); 根據(jù)所述分析的結(jié)果來創(chuàng)建以構(gòu)成所述文本數(shù)據(jù)的詞素的表格的形式的語形 學分析信息;以及通過使用用于創(chuàng)建未被登記在所述詞典數(shù)據(jù)中的復合詞的 復合詞處理規(guī)則,來將所述語形學信息中所包括的所述詞素組合為未被登記 在所述詞典數(shù)據(jù)中的所述復合詞,并檢測所創(chuàng)建的復合詞。
根據(jù)本發(fā)明的第三實施例,提供一種用于使計算機進行用于分析文本數(shù) 據(jù)的過程的程序,所述過程包括步驟獲取所述文本數(shù)據(jù);根據(jù)用于語形學結(jié)果來創(chuàng)建以構(gòu)成所述文本數(shù)據(jù)的詞素的表格的形式的語形學分析信息;以 及通過使用用于創(chuàng)建未被登記在所述詞典數(shù)據(jù)中的復合詞的復合詞處理規(guī) 則,來將所述語形學信息中所包括的所述詞素組合為未^皮登記在所述詞典數(shù) 據(jù)中的所述復合詞,并檢測所創(chuàng)建的復合詞。
在使用上述的本發(fā)明的第一、第二、或第三實施例的情況下,首先獲取 文本數(shù)據(jù)。根據(jù)用于語形學地分析文本數(shù)據(jù)的詞典數(shù)據(jù)來分析所獲取的文本 數(shù)據(jù)。然后根據(jù)分析的結(jié)果,以構(gòu)成文本數(shù)據(jù)的詞素的表格的形式創(chuàng)建語形 學分析信息。通過使用用于創(chuàng)建未被登記在詞典數(shù)據(jù)中的復合詞的復合詞處 理規(guī)則,被包括在語形學分析信息中的詞素被組合成未被登記在詞典數(shù)據(jù)中 的復合詞中,且檢測所創(chuàng)建的復合詞。
根據(jù)本發(fā)明的第四實施例,提供一種用于分析文本數(shù)據(jù)的信息處理裝置, 包括獲:f又部件,用于獲取所述文本數(shù)據(jù);詞素信息登記部件,用于登記在 語形學地分析所述文本數(shù)據(jù)中使用的詞素信息;語形學分析部件,用于根據(jù) 由所述詞素信息登記部件登記的所述詞素信息來分析由所述獲取部件獲取的 所述文本數(shù)據(jù),并用于創(chuàng)建以構(gòu)成所述文本數(shù)據(jù)的詞素的表格的形式的語形 學分析信息;以及分割詞素提取部件,用于根據(jù)被登記在所述詞素信息登記 部件中的所述詞素信息來進一步分析在由所述語形學分析部件創(chuàng)建的所述語 形學分析信息中包括的所述詞素,并從所述詞素中提取分割詞素。
根據(jù)本發(fā)明的第五實施例,提供一種供用于分析文本數(shù)據(jù)的信息處理裝 置使用的信息處理方法,所述信息處理方法包括以下步驟獲取所述文本數(shù)
據(jù);根據(jù)所述分析的結(jié)果來創(chuàng)建以構(gòu)成所述文本數(shù)據(jù)的詞素的表格的形式的 語形學分析信息;以及根據(jù)所述詞典信息來進一步分析在所述語形學分析信 息中包括的所述詞素,從而從所述詞素中提取分割詞素。
根據(jù)本發(fā)明的第六實施例,提供一種用于使計算機進行用于分析文本數(shù) 據(jù)的過程的程序,所述過程包括以下步驟獲取所述文本數(shù)據(jù);根據(jù)用于語 形學地分析所述文本數(shù)據(jù)的詞典數(shù)據(jù)來分析所獲取的文本數(shù)據(jù);根據(jù)所述分 析的結(jié)果來創(chuàng)建以構(gòu)成所述文本數(shù)據(jù)的詞素的表格的形式的語形學分析信 息;以及根據(jù)所述詞典信息來進一步分析在所述語形學分析信息中包括的所 述詞素,并從所述詞素中提取分割詞素。
當使用上述本發(fā)明的第四、第五或第六實施例的情況下,首先獲取文本然后根據(jù)分析的結(jié)果,以構(gòu)成文本數(shù)據(jù)的詞素的表格的形式創(chuàng)建語形學分析 信息。根據(jù)詞典信息進一步分析在語形學分析信息中包括的詞素,從而從詞 素中提取分割詞素。
在以下描述中,術(shù)語"網(wǎng)絡(luò),,將指的是以使能一個裝置向其他裝置發(fā)送 信息的方式連接至少兩個裝置的機構(gòu)(setup )。通過網(wǎng)絡(luò)與另一個通信的裝置 可以獨立于另一個,或構(gòu)成形成單個器件的內(nèi)部塊。
在保證的描述中,術(shù)語"通信"指的是無線地或有線方式運作的配置。 該配置可以替換地以在一個域中進行的有線通信被另 一個域中的無線通信來 掌管的方式工作。配置可以進一步以一個裝置與另一裝置以有線方式通信、 依次地與再一裝置無線通信的方式工作。
用于分析文本數(shù)據(jù)的信息處理裝置可以是進行除了用于文本數(shù)據(jù)分析的 那些以外的處理。該裝置可以是獨立建立的器件或可以是由用于進行包括用 于分析文本數(shù)據(jù)的那些的處理的多個器件構(gòu)成的。
根據(jù)上述本發(fā)明的第一、第二或第三實施例,可以分析文本數(shù)據(jù)。具體 地,可以將詞素組合成可以隨后被;險測的未登記復合詞。
根據(jù)上述本發(fā)明的第四、第五或第六實施例,也可以分析文本數(shù)據(jù)。具 體地,可以進一步分析詞素以便/人其提取分割詞素。
本發(fā)明的更多的目的和優(yōu)點將在閱讀以下描述和附圖后變得明顯
圖l是示出了個人計算機的典型結(jié)構(gòu)的方框圖2是示范了由CPU執(zhí)行的軟件的堆棧的示意圖3是示范了由CPU執(zhí)行的應(yīng)用程序的典型結(jié)構(gòu)的示意圖4是示出了當開始并執(zhí)行語形學分析應(yīng)用時實現(xiàn)的功能塊的功能方框
圖5是示范了語形學分析信息的表格圖6是示范了復合詞處理規(guī)則的示意圖7是示范了復合詞分析信息的表格圖8是示范了所分割的詞素信息的表格圖9是其中進行語形學分析的步驟的流程圖;以及圖10是其中進行語形學分析的另外的步驟的流程圖。
具體實施方式
以下參考附圖描述作為本發(fā)明的優(yōu)選實施例的描述對應(yīng)于如下所附
權(quán)利要求
優(yōu)選地實施例的描述基本上提供了支持權(quán)利要求的具體例子。如果以 下所描述的作為優(yōu)選實施例的發(fā)明的任一例子沒有精確地對應(yīng)權(quán)利要求,這 并不意味著所討論的例子與權(quán)利要求無關(guān)。反之,如果以下描述的本發(fā)明的 任一例子具體對應(yīng)的權(quán)利要求,這并不意味著所討論的例子被局限于該權(quán)利 要求而與其它權(quán)利要求無關(guān)。本發(fā)明的一個實施例是用于分析文本數(shù)據(jù)的信息處理裝置,包括獲取 部件(例如圖4中的輸入部分141),用于獲取文本凄t據(jù);詞素信息登記部 件(例如圖4中的詞典145 ),用于登記在語形學地分析文本數(shù)據(jù)中使用的 詞素信息;語形學分析部件(例如圖4中的順序詞典4臾索部分144和詞素 候選選擇部分146),用于根據(jù)由詞素信息登記部件登記的詞素信息來分析由 獲取部件獲取的文本數(shù)據(jù),從而以組成文本數(shù)據(jù)的詞素的表格的形式創(chuàng)建語 形學分析信息;用于登記復合詞處理規(guī)則的復合詞處理規(guī)則登記部件(例如 圖4中的復合詞處理規(guī)則數(shù)據(jù)庫149),該復合詞處理規(guī)則用于創(chuàng)建在詞素信 息登記部件中未被登記的復合詞;和復合詞處理部件(例如圖4中的復合 詞處理部分148),通過使用在復合詞處理規(guī)則登記部件中登記的復合詞處理 規(guī)則,用于將通過語形學分析部件創(chuàng)建的語形學分析信息中所包含的詞素組 合為詞素信息登記部件中沒有登記的復合詞,并且檢測所創(chuàng)建的復合詞。優(yōu)選地,在復合詞處理規(guī)則登記部件中登記的復合詞處理規(guī)則可以針對 將被包括在從多個相鄰的詞中組合的復合詞中的詞指定條件(例如指定復 合詞的第一個詞是未定義的名詞并且其第二個詞是個普通名詞"總統(tǒng)"的條 件)。優(yōu)選地,在復合詞處理規(guī)則登記部件中登記的復合詞處理規(guī)則可以包括 用于給從多個詞組合的復合詞提供由語音部分、朗讀和詞開銷構(gòu)成的至少一 個信息條目的描述(例如說如果滿足指定了復合詞的第一個詞是未定義的 名詞并且其第二個詞是個普通名詞"總統(tǒng)"的條件,那么^^皮討論的復合詞的 語音部分是個專有名詞的描述)。優(yōu)選地,被實踐作為本發(fā)明的第一個實施例的信息處理裝置可以進一步包括輸出部件(例如圖4中的輸出部分147),用于輸出由語形學分析部件 創(chuàng)建的語形學分析信息、以及由復合詞處理部件;險測到的復合詞。優(yōu)選地,作為第 一個實施例的信息處理裝置可以進一步包括分割詞素提 取部件(例如圖4中的詞素分割部分150),用于根據(jù)詞素信息登記部件中 登記的詞素信息,進一步分析被包括在由語形學分析部件所創(chuàng)建的語形學分 析信息中的詞素,從而從詞素中提取分割詞素。優(yōu)選地,作為第一個實施例的信息處理裝置可以進一步包括輸出部件(例 如圖4中的輸出部分147),用于輸出由語形學分析部件所創(chuàng)建的語形學分 析信息、由復合詞處理部件檢測到的復合詞和由分割詞素提供部件所提取的 分割詞素。優(yōu)選地,在詞素信息登記部件中登記的詞素信息可以包括關(guān)于感興趣的 詞素是否是復合詞的信息;其中語形學分析部件可以在語形學分析信息中并 入關(guān)于在語形學分析信息中以表格的形式組成文本數(shù)據(jù)的每一個詞素是否被 登記在詞素信息登記部件中作為復合詞;并且其中如果參考語形學分析信息 發(fā)現(xiàn)詞素被登記在詞素信息登記部件中作為復合詞,則分割詞素提取部件可 以提取組成感興趣的詞素的分割詞素。另 一個本發(fā)明的實施例是用于分析文本數(shù)據(jù)的信息處理裝置使用的信息 處理方法,信息處理方法包括步驟獲得(例如圖9中的步驟S13)文本 數(shù)據(jù);根據(jù)詞典數(shù)據(jù)(例如圖4中在詞典145中登記的信息)分析(例如 圖9的步驟S14和S15 )所獲得的文本數(shù)據(jù),用于語形學地分析文本數(shù)據(jù); 才艮據(jù)分析的結(jié)果,以組成文本數(shù)據(jù)的詞素的表格的形式創(chuàng)建(例如圖9中 的步驟S16)語形學分析信息;通過使用復合詞處理MJ'J (例如圖6中示 出的和在圖4中登記的復合詞處理規(guī)則數(shù)據(jù)庫149中的信息)用于創(chuàng)建在詞 典數(shù)據(jù)中沒有登記的復合詞、將被包括在語形學分析信息中的詞素組合到未 登記在詞典數(shù)據(jù)中的復合詞中,并檢測所創(chuàng)建的復合詞(例如圖9中的步 驟S18和S19)。本發(fā)明的另 一個實施例是進行用于分析文本數(shù)據(jù)的過程的計算機,過程 包括步驟獲得(例如圖9中的步驟S13)文本數(shù)據(jù);根據(jù)詞典數(shù)據(jù)(例 如圖4中在詞典145中登記的信息)分析(例如圖9的步驟S14和S15 ) 所獲得的文本數(shù)據(jù),用于語形學地分析文本數(shù)據(jù);根據(jù)分析結(jié)果以組成文本 數(shù)據(jù)的詞素的表格的形式創(chuàng)建(例如圖9中的步驟S16)語形學分析信息;通過使用復合詞處理規(guī)則(例如圖6中示出的和在圖4中登記的復合詞處 理規(guī)則數(shù)據(jù)庫149中的信息)用于創(chuàng)建在詞典數(shù)據(jù)中沒有登記的復合詞、將 被包括在語形學分析信息中的詞素組合到未登記在詞典數(shù)據(jù)中的復合詞中, 并檢測所創(chuàng)建的復合詞(例如圖9中的步驟S18和S19 )。本發(fā)明的另一個實施例是用于分析文本數(shù)據(jù)的信息處理裝置,包括用 于獲得文本數(shù)據(jù)的獲取部件(例如圖4中的輸入部分141);用于登記在語 形學地分析文本數(shù)據(jù)中使用的詞素信息的詞素信息登記部件(例如圖4中 的詞典145 );語形學分析部件(例如圖4中的順序詞典搜索部分144和詞 素候選選擇部分146),用于根據(jù)由詞素信息登記部件登記的詞素信息,分析 通過獲取部件獲得的文本數(shù)據(jù),從而以組成文本數(shù)據(jù)的詞素的表格的形式創(chuàng) 建語形學分析信息;分割詞素提取部件(例如圖4中的詞素分割部分150), 用于根據(jù)詞素信息登記部件中登記的詞素信息進一步分析被包括在由語形學 分析部件所創(chuàng)建的語形學分析信息中的詞素,從而從詞素中提取分割詞素。本發(fā)明的另 一個實施例是用于分析文本數(shù)據(jù)的信息處理裝置所使用的信 息處理方法,信息處理方法包括步驟獲得(例如圖9中的步驟S13)文 本數(shù)據(jù);根據(jù)詞典數(shù)據(jù)(例如圖4中在詞典145中登記的信息)分析(例 如圖9的步驟S14和S15)所獲得的文本數(shù)據(jù),用于語形學地分析文本數(shù) 據(jù);根據(jù)分析結(jié)果以組成文本數(shù)據(jù)的詞素的表格的形式創(chuàng)建(例如圖9中 的步驟S16)語形學分析信息;根據(jù)詞典信息進一步分析包括在語形學分析 信息中的詞素,從而從詞素中提取分割詞素(例如圖10中的步驟S21和 S29)。本發(fā)明的另 一個實施例是用于導致計算機進行用于分析文本數(shù)據(jù)的過程 的程序,過程包括步驟獲得(例如圖9中的步驟S13)文本數(shù)據(jù);根據(jù) 詞典^t據(jù)(例如圖4中在詞典145中登記的信息)分析(例如圖9的步 驟S14和S15)所獲得的文本數(shù)據(jù),用于語形學地分析文本數(shù)據(jù);根據(jù)分析 結(jié)果以組成文本數(shù)據(jù)的詞素的表格的形式創(chuàng)建(例如圖9中的步驟S16) 語形學分析信息;根據(jù)詞典信息進一步分析包括在語形學分析信息中的詞素, 從而從詞素中提取分割詞素(例如圖10中的步驟S21和S29)。本發(fā)明的優(yōu)選實施例將通過參考附圖來描述。圖1是作為用于實現(xiàn)語形學分析功能的典型裝置的個人計算機11的方框圖。在圖1中,CPU (中央處理單元)31根據(jù)被保持在ROM (只讀存儲器) 32中的程序或伴隨由存儲設(shè)備38加載進RAM (隨機訪問存儲器)33的程序 進行各種處理。RAM33可以容納CPU31進行其不同處理所必要的數(shù)據(jù)。CPU 31 、 ROM 32和RAM 33由內(nèi)部總線34相互連接。輸入/輸出接口 35也連接至內(nèi)部總線34。輸入/輸出接口 35連接至輸入設(shè)備36、輸出設(shè)備37、存儲設(shè)備38和通 信設(shè)備39。輸入設(shè)備36典型地由鍵盤和鼠標組成。輸出i殳備37例證地由諸 如CRT或LCD的顯示單元和揚聲器構(gòu)成。存儲設(shè)備38通常由硬盤驅(qū)動器組 成。通信設(shè)備39可以由調(diào)制解調(diào)器和終端適配器組成。在操作中,通信設(shè)備 39通過包括電話線和CATV網(wǎng)絡(luò)的網(wǎng)絡(luò)來指導通信。也可以為通信設(shè)備39 提供用于接收廣播信號的天線。驅(qū)動器40可以由于偶然需要被連接至輸入/輸出接口 35。可移動的介質(zhì) 41諸如磁盤、光盤、磁-光盤或半導體存儲器可以被附加在驅(qū)動器40上。從 所附加的可移動介質(zhì)41取得的計算機程序可以由于偶然需要被安裝在存儲 設(shè)備38中。CPU31控制了個人計算機的整個執(zhí)行。對于輸入,用戶可以在諸如鼠標 和鍵盤的輸入設(shè)備36上進行操作。用戶的操作通過內(nèi)部總線34和輸入/輸出 接口 35被輸入至CPU 31 。響應(yīng)于輸入操作,CPU 31從ROM 32或存儲器38 加載相關(guān)程序至RAM 33用于程序執(zhí)行,并且致使諸如顯示單元和揚聲器的 輸出設(shè)備37輸出執(zhí)行的結(jié)果。另外,CPU31控制通信設(shè)備39與外部實體通 信和交換數(shù)據(jù)。圖2示出可由CPU 31執(zhí)行的軟件的堆棧如何關(guān)聯(lián)于諸如由軟件驅(qū)動的輸 入設(shè)備36 (鼠標和鍵盤)、輸出設(shè)備37 (顯示單元和揚聲器)和存儲設(shè)備38 (HDD)之類的硬件。硬件71可以具體地包含諸如視頻板、音板或網(wǎng)絡(luò)板的硬件元件,用于驅(qū) 動組成輸入設(shè)備36的鼠標和鍵盤、組成輸出設(shè)備37的顯示單元和揚聲器、 或作為存儲設(shè)備38的HDD。BIOS (基本I/O系統(tǒng))72提供OS 74和應(yīng)用程序76得到訪問個人計算 機11的設(shè)備的能力。也被稱為固件的BIOS 72區(qū)別于軟件。驅(qū)動器軟件73是用于驅(qū)動硬件71的專用軟件。例證地,驅(qū)動器軟件73 包括用于用于操作鼠標的鼠標驅(qū)動器、用于操:作被-沒計以在顯示單元上顯示圖像的視頻卡的顯示驅(qū)動器,和用于操作未示出的、經(jīng)由通信設(shè)備39連接的
打印機的打印機驅(qū)動器。
OS 74控制了個人計算機11的基本工作并且管理各個資源。例如,由程 序程序76創(chuàng)建的指令通過OS 74被轉(zhuǎn)發(fā)至驅(qū)動器軟件73和BIOS 72。當被 配備多任務(wù)和多窗口的能力時,OS 74控制應(yīng)用程序76的執(zhí)行上下文(例如 由給定的應(yīng)用程序76所使用的寄存器集和主存儲器映像以及文件的處理)并 且管理諸如GUI部分的軟件資源。例證地,OS 74可以是Windows (注冊商 標)95 (商標)、Windows (注冊商標)98 (商標)、Windows (注冊商標) NT (商標)、LINUX,或者OS/2 (商標)。
DLL(動態(tài)鏈接庫)75是用于執(zhí)行軟件所需的并且組成標準的獨立文件的 一組函數(shù)庫。通常,這些文件中的每一個都被稱為DLL。而子例程被定位在 程序的內(nèi)部,然而DLL 75的不同在于其在程序執(zhí)行時在程序外加載。Windows (注冊商標)以DLL 75的形式提供了大量的函數(shù)。因為作為DLL 75所提供 的函數(shù)不需要重新開發(fā),所以增加了開發(fā)應(yīng)用程序76的效率。此外,因為相 同的程序部分可以由多個應(yīng)用程序76共享,因此可以明顯地節(jié)省^磁盤和存儲 器的容量。
應(yīng)用程序76使用個人計算機11以完成諸如語形學分析、詞處理、電子 數(shù)據(jù)表處理、數(shù)據(jù)庫創(chuàng)建、文本搜索、文本翻譯、文本到語音朗讀、電子郵 件交換和網(wǎng)頁瀏覽的各種目的。
參考圖3的以下描述是由CPU31執(zhí)行的應(yīng)用程序76的典型結(jié)構(gòu)。 如圖3所示,很少單獨使用語形學分析應(yīng)用丄01。典型地,語形學分析 應(yīng)用101被用于翻譯文本數(shù)據(jù)的翻譯程序、用于過濾垃圾郵件的電子郵件程 序、輸入方法105(例如輸入方法編輯器(IME)),在文本輸入期間在推測 性轉(zhuǎn)換中輔助電子郵件程序103或詞處理程序104的程序、或者用于文本分 析的文本到語音朗讀程序106所使用。
另夕卜,由數(shù)據(jù)庫管理程序107在數(shù)據(jù)庫中分配分類關(guān)4建詞時,使用語形學 分析應(yīng)用101;或者由用于文本分析的搜索程序108在使用特定關(guān)鍵詞、通 過數(shù)據(jù)庫文本數(shù)據(jù)(其可以或可以不被數(shù)據(jù)庫管理程序107所管理)、或通過 由在網(wǎng)絡(luò)上的網(wǎng)絡(luò)瀏覽器109等等獲取的文本數(shù)據(jù)搜索時,使用語形學分析 應(yīng)用101。優(yōu)選地,執(zhí)行語形學分析用于"全文本搜索",從而搜索多個文檔 中的所有文本以找到感興趣的關(guān)4建詞,而不只"通過文件名搜索,,或"搜索以找到文件中的字符串"。
此外,可以與數(shù)據(jù)收集程序110聯(lián)合地使用語形學分析應(yīng)用101。通過
網(wǎng)絡(luò)瀏覽器109,數(shù)據(jù)收集程序110使用預定的關(guān)鍵詞在因特網(wǎng)中搜索不同 信息中以找到特定信息,并且當需要時將所收集的信息安排進數(shù)據(jù)庫中。語 形學分析應(yīng)用101被用于確定將被收集的特定關(guān)鍵詞是否被包括在由數(shù)據(jù)收 集程序110等等所訪問的信息中。當過濾內(nèi)容時,網(wǎng)絡(luò)瀏覽器109可以通過 語形學分析應(yīng)用101利用所分析的內(nèi)容。
例如,在執(zhí)行索引搜索(indexed search)時,搜索程序108以允許高速
搜索的方式,預先通過一組目標文本來搜索以準備索引的數(shù)據(jù)。如果文本是 英語的,其中的詞通過空格彼此分開,則可以容易地通過從文本中提取由空
格分隔的字符串來準備索引數(shù)據(jù)。相反,在由日語寫成的文本中,詞不是通 過空格彼此分開。這使得搜索程序108使用用于語形學地分析目標文本組的 語形學分析應(yīng)用101。語形學分析的結(jié)果,諸如所分隔的詞和被分析的上下 文,被搜索程序108所使用作為用于創(chuàng)建索引數(shù)據(jù)的1^出。依次使用索引數(shù) 據(jù)用于搜索。
在用于垃圾郵件過濾的電子郵件程序103或用于內(nèi)容過濾的網(wǎng)絡(luò)瀏覽器 109利用語形學分析應(yīng)用101所完成的語形學分析的結(jié)果的情況下,可以基 于語形學分析的結(jié)果進行段落分析和依賴性分析。這使得執(zhí)行用于基于意思 的過濾的文本內(nèi)句法分析成為可能,而不僅用于簡單的樣式匹配。
語形學分析應(yīng)用IOI語形學地分析先前輸入的文本,用于詞處理程序104 或電子郵件程序103,從而實現(xiàn)了推測性的轉(zhuǎn)換功能。此外,語形學分析應(yīng) 用101語形學地分析所接收的電子郵件,用于電子郵件程序103的推測性轉(zhuǎn) 換。在這種情況下,可以推測性地使用郵件中的詞用于答復。
在參考圖1至圖3所做的之前的描述中,示出了通過單獨的個人計算機 11的CPU 31進行的包括語形學分析應(yīng)用101的多個應(yīng)用??商鎿Q的,這些 應(yīng)用可以由相同裝置的不同CPU同步執(zhí)行。作為另一個可替換的,應(yīng)用程序 可以由多個裝置執(zhí)行(例如語形學分析應(yīng)用101由一個裝置執(zhí)行,同時翻 譯程序103和搜索程序108由另一個裝置執(zhí)行,等等)。在后者情況下,可以 由適當?shù)耐ㄐ虐才艁碓谘b置之間改變執(zhí)行的結(jié)果,以便具有其間同步的程序 的處理。
圖4是示出當由CPU 31開始并執(zhí)行語形學分析應(yīng)用101作為應(yīng)用程序時實現(xiàn)的功能塊的功能方框圖。
輸入部分141接收以電子形式的文本的輸入,并將被接收作為輸入的這
些轉(zhuǎn)發(fā)給語形學分析部分142。
語形學分析部分142控制語形學分析的整個處理。例證地,語形學分析 部分142給順序詞典搜索部分144供應(yīng)通過輸入部分141 4定入的文本,用于 通過詞典的搜索。語形學分析部分142還控制語形學候選選擇部分146來獲 得基本(即、普通)語形學分析的結(jié)果;控制復合詞處理部分148來基于基 本語形學分析的結(jié)果來分析復合詞;或控制語形學分割部分150來進一步分 割基本語形學分析的結(jié)果。
操作模式設(shè)置部分143設(shè)置語形學分析應(yīng)用101的操作模式。語形學分 析應(yīng)用101具有四個操作模式進行基本語形學分析的模式;除了基本語形 學分析以外分析復合詞的模式;除了基本語形學分析以外分割語形學分析的 結(jié)果的模式;除了基本語形學分析以外分析復合詞且分割語形學分析的結(jié)果 的模式??梢灶A先對于利用語形學分析且參考圖3被討論的不同應(yīng)用不同地 建立操作才莫式。替換地,可以取決于采取語形學分析且參考圖3被描述的那 些應(yīng)用的設(shè)置(包括由利用特定應(yīng)用的用戶的設(shè)置)來改變搡作模式。
為由語形學分析部分142控制的語形學分析提供兩個模式。在一個模式 中,復合詞處理部分148分析復合詞,詞素分割部分150分割語形學分析的 結(jié)果;在另一模式中,兩個部分148和150停止它們的處理。由應(yīng)用請求語 形學分析來指定兩個模式之一,以便復合詞處理部分148和詞素分割部分150 可以被安排以要么進行它們的處理要么停止它們的處理。
在語形學分析部分142的控制下,順序詞典搜索部分144引用詞典145 搜索所登記的詞用于匹配于輸入文本。詞典145包含要^皮;險測作為詞素的所 登記的詞。這些詞包括每個由多個詞組成的符合詞、諸如由"股份"和"公 司,,組成的"股份公司"。作為復合詞被登記在詞典145中的詞與指示它們構(gòu) 成復合詞的信息以及作為語音和朗讀的部分的這種詞信息相關(guān)聯(lián)。順序詞典 搜索部分144給詞素候選選擇部分146供應(yīng)通過詞典進行的搜索的結(jié)果。
已知詞典搜索的結(jié)果,詞素候選選擇部分146^f吏用例證地最長匹配原則 或開銷最小化方法,從詞素候選(即,搜索的結(jié)果)中選擇被認為適合的字 符串作為詞素,從而創(chuàng)建語形學分析信息,且將所創(chuàng)建的信息轉(zhuǎn)發(fā)到輸出部 分147和到語形學分析部分142。在復合詞和非復合詞之間,詞素候選選擇部分146優(yōu)先地選擇復合詞。例如,假設(shè),文本"來自AAA股份公司的總裁 的問j矣(greetings from the president of AAA Stock Company ),,的分才斤已經(jīng)揭 示了復合詞"股份公司,,被登記在詞典145中。在該情況下,詞素候選選擇 部分146輸出替代兩個詞"股份,,和"公司,,的復合詞"股份公司"。應(yīng)該理 解,在語形學分析中,所供應(yīng)的文本如果在輸出結(jié)果之前發(fā)現(xiàn)可劃分總是被 劃分。例證地,如果只供應(yīng)文本"股份公司",則詞素候選選擇部分146從文 本中選擇兩個詞"股f分"和"7>司"作為詞素。
除了上述最長匹配原則和開銷最小化方法以外,已經(jīng)建議了許多其他技 術(shù)用于由詞素候選選4奪部分146在從詞素候選中選擇一皮認為適合的字符串作 為詞素中所使用??梢杂稍~素候選選擇部分146利用這種建議的技術(shù)的任何 一種。
圖5示出當進行文本"來自AAA股份公司的總裁的問候"時獲得的典型 的語形學分析信息。
語形學分析信息部分地由被詞素候選選擇部分146從由順序詞典搜索部 分144通過詞典進行的搜索的結(jié)果中選擇作為詞素的詞的字符串而構(gòu)成。語 形學分析信息進一步由所選詞的語音部分構(gòu)成;由這些詞的朗讀而構(gòu)成;且 由關(guān)于這些詞是否組成復合詞或詞的信息構(gòu)成。
因為發(fā)現(xiàn)復合詞"股份公司"被登記在詞典145中,因此文本"來自AAA 股份公司的總裁的問候"被語形學地分析成專有名詞"AAA"、復合詞普通名 詞"股份公司"、普通名詞"總裁"、虛詞"的(of)"和sa-row不規(guī)則的動詞 變化名詞"問候(greetings ),,。語形學分析信息可以例證地包括有關(guān)所選詞和 其開銷的屬性信息。如圖5所示,在被包括在語形學分析信息中的所選詞素 中,這些構(gòu)成的復合詞每個與指示被討論的詞是復合詞的信息相關(guān)聯(lián)。
在以上例子中,作為典型的復合詞示出的復合詞"股份公司"有兩個詞 組成。顯然,復合詞每個還可以由三個或多個詞組成。
輸出部分147向先前請求了語形學分析的應(yīng)用輸出由語形學分析應(yīng)用 101完成的分析的結(jié)果。如果語形學分析應(yīng)用101處于其中只進行基本語形 學分析的操作模式,則輸出部分147輸出由詞素候選選擇部分146獲得的語 形學分析信息。如果語形學分析應(yīng)用101處于其中進行基本語形學分析和復 合詞分析兩者的操作模式,則除了由詞素候選選擇部分146獲得的語形學分 析信息以外,輸出部分147還輸出由復合詞處理部分148 (稍后將討論)獲得的復合詞分析信息。如果語形學分析應(yīng)用101處于其中進行基本語形學分 析和語形學分析的結(jié)果的分割兩者的操作模式,則除了由詞素候選選擇部分
146獲得的語形學分析信息以外,輸出部分147還輸出由詞素分割部分150 (稍后討論)獲得的分割詞素信息。如果語形學分析應(yīng)用101處于進行基本 語形學分析、復合詞分析和語形學分析的結(jié)果的分割的選擇模式,則除了由 詞素候選選擇部分146獲得的語形學分析信息以外,輸出部分147還輸出由 復合詞處理部分148獲得的復合詞分析信息和由詞素分割部分150獲得的分 割詞素信息。
復合詞處理部分148在語形學分析部分142的控制下獲得語形學分析信 息,且通過參考在復合詞處理規(guī)則數(shù)據(jù)庫149中登記的復合詞處理規(guī)則來從 構(gòu)成語形學分析信息的詞素中創(chuàng)建復合詞,從而將語形學分析信息轉(zhuǎn)換成復 合詞分析信息。即,復合詞處理部分148通過使用在復合詞處理規(guī)則數(shù)據(jù)庫 149中發(fā)現(xiàn)的復合詞處理規(guī)則來4企測未被登記在詞典145中的復合詞。
圖6示意地示出了被登記在復合詞處理規(guī)則數(shù)據(jù)庫149中的復合詞處理 規(guī)則。
圖6所示的復合詞處理規(guī)則的第一規(guī)則闡述了,如果未定義的名詞出現(xiàn) 在緊挨著詞"股份公司"之前,則這兩個詞將被組合以組成專有名詞。第二 復合詞處理規(guī)則闡述了,如果未定義的名詞出現(xiàn)在緊挨著"總裁"之前,則 這兩個詞將^L組合以形成專有名詞。第三復合詞處理^L則闡述了,如果未定 義名詞出現(xiàn)在緊挨著詞"第一壘手"之前,則這兩個詞將被組合以形成專有 名詞。在約束要如何處理復合詞時,每個復合詞處理規(guī)則可以闡述當并列詞 素時包括詞素候選的朗讀、字體和有效符號長度以及符號和語音部分在內(nèi)的 關(guān)于詞素候選的所有類型的信息。
當發(fā)現(xiàn)詞構(gòu)成符合復合詞處理規(guī)則的條件的復合詞時,可以為被討論的 復合詞定義除了其語音部分以外的諸如詞屬性、朗讀和詞開銷之類的事物。 如果滿足復合詞處理規(guī)則的條件(圖6中的等式左側(cè)),且從而識別了復合詞, 則該復合詞可以經(jīng)過諸如上述定義的處理。這種處理^皮稱為動作(圖6中等 式右側(cè))。
例如, "河"當單獨出現(xiàn)時發(fā)音為"kawa",而當作為專有名詞(特別 是地理名詞)后綴時發(fā)音為"gawa"。由于該原因,可以優(yōu)選地創(chuàng)建復合詞處 理規(guī)則以包括定義"(專有名詞)+gawa"作為朗讀的朗讀相關(guān)信息。在圖6中,示出每個復合詞處理規(guī)則以定義由兩個詞組成的復合詞。替 換地,復合詞每個可以由三個或更多詞來構(gòu)成,且可以使用適合的復合詞處 理規(guī)則類似地定義這種復合詞。
復合詞處理部分148根據(jù)被登記在復合詞處理規(guī)則數(shù)據(jù)庫149中的諸如
圖6所示的那些的復合詞處理規(guī)則分析,從頭分析所獲取的語形學分析信息。
當檢測到匹配于復合詞處理規(guī)則的條件的所獲取的信息的部分時,復合詞處
理部分148對該部分進^f亍動作,并向輸出部分147發(fā)送得到的復合詞分析信 自
圖7示出在獲取由來自于文本"來自AAA股份公司的總裁的問候"的專 有名詞"AAA"、復合詞普通名詞"股份公司"、普通名詞"總裁"、虛詞"的" 和sa-row不規(guī)則動詞變化名詞"問候,,組成的語形學分析信息之后,由復合 詞處理部分148使用圖6中的復合詞處理規(guī)則創(chuàng)建的復合詞分析信息的例子。
首先,基于圖6中的規(guī)則"(名詞,*)(名詞,"股份公司")=專有名詞" 名詞"AAA"和"股份公司"被識別作為復合詞"AAA股份公司"。然后, 結(jié)合普通名詞"總裁",這些名詞一起被識別作為復合詞"AAA股份公司的 總裁"。
在語形學分析部分142的控制下,詞素分割部分150獲取語形學分析信 息。如果發(fā)現(xiàn)在所獲取的信息中被獲得作為詞素的任何詞將是復合詞,則詞 素分割部分150向語形學分析部分142發(fā)送被討論的復合詞,且請求將該詞 分割成詞素。
語形學分析部分142再次向順序詞典搜索部分144發(fā)送所供應(yīng)的復合詞。 順序詞典搜索部分144被致使引用詞典145用于語形學分析執(zhí)行,且將分析 的結(jié)果反饋給詞素分割部分150。
例證地,假設(shè)詞素分割部分150已經(jīng)獲取了參考圖5所述的由來自于文 本"來自AAA股份公司的總裁的問候"的專有名詞"AAA"、復合詞普通名 詞"股份公司"、普通名詞"總裁"、虛詞"的"和sa-row不規(guī)則動詞變化名 詞"問候,,組成的語形學分析信息。在這種情況下,詞素分割部分150提取 復合詞"股份公司",并將其發(fā)送給語形學分析部分142以請求將該復合詞分 割成詞素。依次地,語形學分析部分142將復合詞"股份公司"轉(zhuǎn)發(fā)給順序 詞典 _索部分144。
如所述,如果發(fā)現(xiàn)所供應(yīng)的文本可劃分,則順序詞典搜索部分144在其語形學分析處理期間總是將該文本分析成詞素,并輸出分析的結(jié)果。如果將 要被分析的所供應(yīng)的文本是"股份公司",則順序詞典搜索部分144從文本獲
取兩個詞"股份"和"公司",并通過語形學分析部分142將這些詞發(fā)送給詞 素分割部分150。
詞素分割部分150保留所供應(yīng)的語形學分析的結(jié)果作為將被分割的語形 學分析信息。如果被包括在將被分割的語形學分析信息中的詞素的任何一個 詞變?yōu)閺秃显~,則詞素分割部分150再次將被討論的復合詞反饋給語形學分 析部分142以請求將該復合詞分割成詞素。由語形學分析部分142且由順序 詞典搜索部分144來重復上述處理。
如果在將被分割的語形學分析信息中沒有發(fā)現(xiàn)另外的復合詞,則詞素分 割部分150向輸出部分147發(fā)送^皮分割的詞素作為分割詞素信息。
在獲取參考圖5所述的由來自于文本"來自AAA股份公司的總裁的問候,, 的專有名詞"AAA"、復合詞普通名詞"股份公司"、普通名詞"總裁"、虛詞
"的,,和sa-row不規(guī)則動詞變化名詞"問候"組成的語形學分析信息之后, 詞素分割部分150最后獲得如圖8所示的由專有名詞"AAA"、普通名詞"股 份"、普通名詞"公司"、普通名詞"總裁"、虛詞"的"和sa-row不規(guī)則動 詞變化名詞"問候"組成的分割詞素信息。
在確定是否要分割詞時,詞素分割部分150除了檢驗指示復合詞的語形 學分析信息以外,還可以^r查以確定在詞中的字符的數(shù)量是否至少是3。在 檢查中使用的這種條件可期望用于詳細的詞分割。
替換地,詞素分割部分150可以基于語音部分確定是否進行詞分割。更 具體地,許多復合詞名詞每個由名詞的組合組成。因此,如果語音部分變成 名詞,則將被討論的詞分割成詞素被認為很重要;請求了語形學分析的應(yīng)用 還很可能重要地利用分割詞素信息。通過比較,如果語音部分是動詞,仍然 存在諸如"發(fā)送(to send)"和"開始(to start)"的復合詞。但是,將被討論 的詞分割成詞素不被認為如此重要;被應(yīng)用高度地重視該詞的可能性不是很 高。如果語音部分是形容詞,存在諸如"以快的方式"和"美麗"的復合詞, 將該詞分割成詞素比動詞還不重要。;陂應(yīng)用重^L該詞的可能性^f氐于動詞的情 況。如果語音部分是副詞,則將被討論的詞分割成詞素遠不重要;被應(yīng)用重 視該詞的可能性仍然較低。
利用語形學分析且參考圖3被討-淪的不同的應(yīng)用之一可以預先確定詞素分割部分150是否要僅對名詞進行語形學分割;對名詞和動詞進行語形學分 割;對名詞、動詞和形容詞進行語形學分割;或?qū)γ~、動詞、形容詞和副 詞進行語形學分割??梢陨院笥衫谜Z形學分析且參考圖3被描述應(yīng)用之一 來改變這種設(shè)置(該改變可以包括由使用具體應(yīng)用的用戶進行的設(shè)置)。
在詞素分割部分150以遞歸方式進行語形學分割的情況下,語形學分割 的多個通過(pass)的結(jié)果可以都被包括在分割詞素信息中。
例如,假設(shè)復合詞"國際BBB聯(lián)盟的世界杯錦標賽系列"(BBB是諸如 足球或籃球的體育名稱)被登記在詞典145中用作登記復合詞。在這種情況 下,當面對該復合詞時,詞素分割部分150向語形學分析部分142供應(yīng)被討 論的詞以從其得到結(jié)果。詞素分割部分150繼續(xù)以遞歸的方式進行語形學分 割。例證地,在第一步,詞素分割部分150可以獲取"國際BBB聯(lián)盟的世界 杯"、"國際錦標賽系列"。在第二步,詞素分割部分150可以將"國際BBB 聯(lián)盟的世界杯"分割為"國際BBB聯(lián)盟"和"世界杯";以及將"世界錦標 賽系列,,分割為"世界"、"錦標賽"和"系列"。在第三步,詞素分割部分 150可以將"國際BBB聯(lián)盟"分給為"國際"、"BBB"和"聯(lián)盟";將"世 界杯,,分割為"世界"和"杯";以及將"運動員系列"分割為"運動員"和 "系列"。
在上述例子中,在第一步中,詞"國際BBB聯(lián)盟的世界杯,,和"國際錦 標賽系列"被記錄作為分割的結(jié)果。在第二步中,詞"國際BBB聯(lián)盟"、"世 界杯"、"世界"、"錦標賽,,和"系列,,被記錄作為分割的結(jié)果。在第三步中, 詞"國際"、"BBB"、"聯(lián)盟"、"世界"、"杯"、"世界"、"運動員"、"系列" 和"系列"被記錄作為分割的結(jié)果(應(yīng)該主要"世界"和"系列,,已經(jīng)在第 二步中獲取了 )。
現(xiàn)在將參考圖9和10的流程圖來描迷語形學分析的處理。
在步驟Sll中,操作模式設(shè)置部分143檢查以確定是否基于請求語形學 分析應(yīng)用101進行處理的應(yīng)用的類型和搡作設(shè)置來指定操作模式的設(shè)置或當 前模式的任何改變。
在步驟S11中,發(fā)現(xiàn)指定了操作模式的設(shè)置或當前模式的改變,則到達 步驟S12。在步驟S12中,操作模式設(shè)置部分143如被指定用于由語形學分 析部分142控制的語形學分析應(yīng)用101 —樣設(shè)置操作模式或改變當前模式。
更具體地,操作模式設(shè)置部分143為語形學分析應(yīng)用IOI設(shè)置如下四個操作模式之一其中只進行基本語形學分析的操作模式;其中進行基本語形
學分析和復合詞分析兩者的操作模式;其中進行基本語形學分析和語形學分 析的結(jié)果的分割兩者的操作模式;以及其中進行基本語形學分析、復合詞分
析和語形學分析的結(jié)果的分割的選擇模式。
在以下兩種情況之一到達步驟S13:如果在步驟Sll既沒有發(fā)現(xiàn)指定梯 作模式的設(shè)置也沒有發(fā)現(xiàn)指定當前模式的改變;以及當完成步驟S12的執(zhí)行 時。在步驟S13中,輸入部分141從請求語形學分析應(yīng)用101進行參考圖3 的上述語形學分析的應(yīng)用之一接收將被分析的文本的輸入。該輸入文本被轉(zhuǎn) 發(fā)到語形學分析部分142。
在步驟S14中,語形學分析部分142向順序詞典搜索部分144發(fā)送所供 應(yīng)的文本。在語形學分析部分142的控制下,順序詞典搜索部分144參考詞 典145并通過詞典來搜索匹配于輸入文本的被登記的詞。通過詞典的結(jié)果被 順序詞典搜索部分144發(fā)送給詞素候選選擇部分146。
在步驟S15中,詞素候選選擇部分146接收詞典搜索的結(jié)果(即,詞素 候選),并例證地通過使用最長匹配原則或開銷最小化方法從搜索結(jié)果中選擇 適當?shù)淖址鳛樵~素。
在步驟S16中,基于步驟S15中所選的詞素候選,詞素候選選擇部分146 創(chuàng)建諸如參考圖5討論的詞素候選選擇部分146。所創(chuàng)建的信息被詞素候選 選擇部分146發(fā)送給輸出部分147并發(fā)送給語形學分析部分142。
在步驟S17中,語形學分析部分142檢查以確定由操作模式設(shè)置部分143 設(shè)置的操作才莫式是否是其中進行了復合詞分析的那個。如果在步驟S17中, 沒有發(fā)現(xiàn)操作模式是其中進行了復合詞分析的那個,則控制進行到步驟S20 (稍后將討論)。
如果在步驟S17發(fā)現(xiàn)操作模式是其中進行了復合詞分析的那個,則到達 步驟S18。在步驟S18中,語形學分析部分142向復合詞處理部分148供應(yīng) 語形學分析信息。復合詞處理部分148參考諸如被登記在復合詞處理規(guī)則數(shù) 據(jù)庫149中且參考圖6被討論的復合詞處理規(guī)則。
在步驟S19中,基于被登記在復合詞處理規(guī)則數(shù)據(jù)庫149中的復合詞處 理規(guī)則,復合詞處理部分148將被包括在語形學分析信息中的詞素組合到諸 如參考圖7上述的復合詞分析信息中。如此創(chuàng)建的信息^皮供應(yīng)給輸出部分 147。如果步驟S17中沒有發(fā)現(xiàn)操作模式是其中進行了復合詞分析的那個,或
當完成了步驟S19的執(zhí)行時,則到達步驟S20。在步驟S20中,語形學分析 部分142檢查以確定由操作模式設(shè)置部分143設(shè)置的操作模式是否是其中進 行的詞素分割的那個。如果在步驟S20中沒有發(fā)現(xiàn)操作模式是其中進行了詞 素分割的那個,則控制進行到步驟S30 (稍后將討論)。
如果在步驟S20中發(fā)現(xiàn)操作模式是其中進行了詞素分割的那個,則到達 步驟S21。在步驟S21中,語形學分析部分142向詞素分割部分150供應(yīng)語 形學分析信息。詞素分割部分150從所供應(yīng)的語形學分析信息中獲取未處理 的詞素。
在步驟S22中,詞素分割部分150基于在該詞指定字符的數(shù)量或根據(jù)被 討論的詞的語音部分,來檢查以確定所獲取的詞素是否是復合詞或所獲取的 詞素是否是要被分割的詞。如果在步驟S22中沒有發(fā)現(xiàn)所獲取的詞素是要被 馮的詞,則控制進行到步驟S28 (稍后將討論)。
如果在步驟S22中發(fā)現(xiàn)所獲取的詞素是要被分割的詞,則到達步驟S23。 在步驟S23中,詞素分割部分150向語形學分析部分142供應(yīng)感興趣的詞, 并請求將該詞分割成詞素。語形學分析部分142再次向順序詞典搜索部分144 發(fā)送所供應(yīng)的復合詞。順序詞典搜索部分144通過詞典145搜索并向詞素候 選選擇部分146供應(yīng)詞典搜索的結(jié)果。
在步驟S24中,詞素候選選擇部分146接收詞典搜索的結(jié)果(即,詞素 候選),并例證地通過使用最長匹配原則或開銷最小化方法來從詞素候選中選 擇適當?shù)淖址鳛樵~素。
在步驟S25中,基于步驟S24中所選的詞素候選,詞素候選選擇部分146 創(chuàng)建諸如參考圖5上述的語形學分析信息,且向語形學分析部分142發(fā)送所 創(chuàng)建的信息。語形學分析部分142向詞素馮部分150轉(zhuǎn)發(fā)所供應(yīng)的語形學分 析信息。
在步驟S26中,詞素分割部分150獲取并保留所供應(yīng)的語形學分析信息 作為用于分割的語形學分析信息。
在步驟S27中,詞素分割部分150檢查以確定被保持作為用于分割的語 形學分析信息的字符串(即來自分析的字符串)的任何一個是否是將被分割 的詞。在該步驟中,詞素分割部分150還基于在字符串中的字符的數(shù)量或根 據(jù)該字符串的語音部分來檢查以確定所獲取的字符串是否是復合詞或被討論的字符串是否是將被分割的詞。
如果在步驟S27中發(fā)現(xiàn)從分析獲取的字符串的任何一個是將被分割的 詞,則控制返回步驟S23且重復隨后的步驟。
如果在步驟S22沒有發(fā)現(xiàn)所獲取的詞素是將被分割的詞或如果在步驟 S27發(fā)現(xiàn)沒有字符串是將被分割的詞,則到達步驟S28。在步驟S28中,詞素 分割部分150檢查以確定是否已經(jīng)對所有詞素進行了處理。如果在步驟S28 中沒有發(fā)現(xiàn)已經(jīng)對所有詞素進行了處理,則控制返回步驟S21并重復隨后的 步驟。
如果在步驟S28中發(fā)現(xiàn)已經(jīng)對所有詞素完成了處理,則到達步驟S29。 在步驟S29中,詞素分割部分150創(chuàng)建諸如參考圖8上述的分割詞素信息, 并向輸出部分147供應(yīng)所創(chuàng)建的信息。
如果在步驟S20中沒有發(fā)現(xiàn)操作模式是其中進行了詞素分割的那個,或 當完成步驟S29的執(zhí)行時,則到達步驟S30。在步驟S30中,輸出部分147 向請求了語形學分析的應(yīng)用輸出通過語形學分析應(yīng)用101的處理而獲得的分 析結(jié)果。這完成了該處理。
通過上述處理,如果語形學分析應(yīng)用101的操作模式是其中只進行了基 本語形學分析的那個,然后應(yīng)用101可以給請求了語形學分析的應(yīng)用供應(yīng)由 詞素候選選擇部分146獲取的語形學分析信息。如果語形學分析應(yīng)用101的
操作模式是其中進行基本語形學分析和復合詞分析兩者的那個,則除了由詞 素候選選擇部分146獲取的語形學分析信息以外,應(yīng)用IOI可以給請求語形 學分析的應(yīng)用供應(yīng)由復合詞處理部分148獲得的復合詞分析信息。
如果語形學分析應(yīng)用101的選擇模式是其中執(zhí)行了基本語形學分析和語 形學分析的結(jié)果的分割的那個,則除了由詞素候選選擇部分146獲取的語形 學分析信息以外,應(yīng)用101可以給請求語形學分析的應(yīng)用供應(yīng)由詞素分割部 分150獲得的分割詞素信息。如果語形學分析應(yīng)用IOI的操作模式是其中進 行了基本語形學分析、復合詞分析和語形學分析的結(jié)果的分割的那個,則除 了由詞素候選選擇部分146獲取的語形學分析信息以外,應(yīng)用IOI可以給請 求了語形學分析的應(yīng)用供應(yīng)由詞素分割部分150獲得的分割詞素信息。
在傳統(tǒng)語形學分析中,除了被登記在詞典145中的那些以外,沒有復合 詞可以被提取。通過比較,根據(jù)本實施例,基于復合詞處理規(guī)則來進行復合 詞分析,以便還可以提取未被登記在詞典145中的復合詞。在普通的語形學分析中, 一旦被登記在詞典145中,組成任何復合詞的元素(即,詞)不能 被提取。通過比較,根據(jù)本實施例,可以通過分割處理來提取構(gòu)成任何被登 記的復合詞的元素。
即,本發(fā)明的實施方式使得能夠用復合詞分析信息和分割詞素信息來補 充通常語形學分析的結(jié)果。這些分析的結(jié)果可以被應(yīng)用于廣泛的應(yīng)用,諸如 翻譯和搜索應(yīng)用,從而獲得顯著的益處。
將理解,本發(fā)明的使用或不使用清楚地影響了由翻譯程序102的處理的 結(jié)果。更具體地,取決于是否求助于本發(fā)明,翻譯程序102可以將文本"來 自AAA股份公司的總裁的問候,,在一種情況下翻譯成"AAA股份公司的總 裁"、"的"和"問候,,;在另一情況下翻譯成"AAA股傷v^司"、"總裁"、"的"
和"問候,,;或再一情況下翻譯成"AAA"、"股份公司總裁"、"的"和"問候"。 還假設(shè)詞"國際BBB聯(lián)盟的世界杯錦標賽系列"被輸入作為搜索關(guān)鍵詞, 且假設(shè)使用該詞的搜索幾乎不帶有有價值的信息的條目。在這種情況下,通 常使用構(gòu)成目標詞的(多個)詞或(多個)詞串用于進一步搜索。但是,在 可以以預先被登記在詞典145中的復合詞為單位進行搜索的情況下,搜索的 準確性取決于被登記在詞典145中的詞的數(shù)量和詞的樣式。如果給應(yīng)用或給 以后呈現(xiàn)被縮短的可能的分割詞用于使用最佳適合于獲取所期望的結(jié)果的詞 或詞串的搜索。則顯著地改進了搜索的精確性。在詞素分割部分150以遞歸 方式進行詞素分割的情況下,語形學分割的多個通過的結(jié)果可以全部被包括 在分割詞素信息中。這使得能夠輕易地提取最適合于期望搜索結(jié)果的獲取的
詞或詞串。
通過適當?shù)谋景l(fā)明的結(jié)構(gòu),復合詞可以-陂登記在詞典145中,而不需要 用戶得知構(gòu)成這些復合詞的單元詞;通過詞典的搜索的結(jié)果仍然與當單獨的 詞被登記作為構(gòu)成復合詞的元素時所給出的那些一樣。這有助于提高詞典維 護的效率。
例證地,如果登記了至少兩個詞"股份"和"公司",且如果專有名詞"AAA" 是沒有在詞典中發(fā)現(xiàn)的未定義的詞,則上述文本"AAA股份公司,,可以被語 形學地分析成復合詞"AAA股份公司"(專有名詞)和語形學地分析成由
"AAA"(專有名詞)、"股份"(普通名詞)和"公司,,(普通名詞)組成的分 割信息。如果詞典145包含被登記的普通名詞"股份^^司",則該詞還被獲取 作為語形學分析信息的部分。換句話說,沒有在詞典145中登記的復合詞"AAA股份公司"(專有名 詞)可以被獲取作為復合詞專有名詞。由于能夠提取諸如"CCC股份公司" 和"DDD股份公司,,的不同專有名詞的組合,因此可以提取大量復合詞,而 沒有增加在詞典145的詞數(shù)。
本發(fā)明明顯地可應(yīng)用于除了日語以外的語言。例如,詞典可以被安排成 包含i者如"united" 、 "America" 、 "president" 、 "airline"禾口 "state"的一皮登i己 的英文詞;諸如"a"、 "an"和"the"的虛詞;諸如"in"、 "of,和"at"的 介詞;諸如"The United States of America"的復合詞;和;者如(名詞(國家名),*) 的(名詞"總裁")=專有名詞和(名詞,*)(名詞"航空")=專有名詞的復 合詞處理規(guī)則。
可以由硬件或軟件執(zhí)行上述步驟或處理的系列。對于要發(fā)生的基于軟件 的處理,構(gòu)成軟件的程序可以預先被并入計算機的專用硬件用于程序執(zhí)行, 或可以當使用時從適當?shù)挠涗浗橘|(zhì)安裝到通用個人計算機或能夠基于被安裝 的程序執(zhí)行各種功能的器件。
如圖l所示,被提供給遠離其計算機的用戶且容納了被涉及以進行上述 步驟和處理系列的程序的記錄介質(zhì)典型地由可移動介質(zhì)41構(gòu)成,可移動介質(zhì) 41諸如》茲盤(包括軟盤)、光盤(包括CD-ROM (緊致盤只讀存儲器)和DVD (數(shù)字通用盤))、石茲光盤(包括MD(小型盤;注冊商標))或半導體存儲器。
在本說明書中,描述被存儲在記錄介質(zhì)上的程序的步驟不僅呈現(xiàn)了將以 所述順序(即,基于時間順序)進行的處理,還呈現(xiàn)了可以并行或單獨且不 按時間順序進行的處理。
在本說明書中,術(shù)語"系統(tǒng)"指的是多個組成設(shè)備或裝置構(gòu)成的整個配置。
本領(lǐng)域技術(shù)人員應(yīng)該理解可以取決于涉及需求和其他因素,進行各種修 改、組合、子組合和變更,只要它們處于所附權(quán)利要求或其等同物的范圍內(nèi)。
相關(guān)申請的交叉引用
本發(fā)明包含與2007年5月16日在日本專利局提供的日本專利申請 JP2007-130387相關(guān)的主題,其全部內(nèi)容#1引用附于此。
權(quán)利要求
1.一種用于分析文本數(shù)據(jù)的信息處理裝置,包括獲取部件,用于獲取所述文本數(shù)據(jù);詞素信息登記部件,用于登記在語形學地分析所述文本數(shù)據(jù)中使用的詞素信息;語形學分析部件,用于根據(jù)由所述詞素信息登記部件登記的所述詞素信息來分析由所述獲取部件獲取的所述文本數(shù)據(jù),并用于創(chuàng)建以構(gòu)成所述文本數(shù)據(jù)的詞素的表格的形式的語形學分析信息;復合詞處理規(guī)則登記部件,用于登記用于創(chuàng)建未被登記在所述詞素信息登記部件中的復合詞的復合詞處理規(guī)則;以及復合詞處理部件,用于通過使用被登記在所述復合詞處理規(guī)則登記部件中的所述復合詞處理規(guī)則,來將由所述語形學分析部件創(chuàng)建的所述語形學分析信息中所包括的所述詞素組合為未被登記在所述詞素信息登記部件中的所述復合詞,并用于檢測所創(chuàng)建的復合詞。
2. 根據(jù)權(quán)利要求1所述的信息處理裝置,其中被登記在所述復合詞處理 規(guī)則登記部件中的所述復合詞處理規(guī)則指定用于從多個相鄰詞中組合的復合 詞中所包括的詞的條件。
3. 根據(jù)權(quán)利要求1所述的信息處理裝置,其中被登記在所述復合詞處理 規(guī)則登記部件中的所述復合詞處理規(guī)則包括用于給從多個詞中組合的復合詞 提供由語音、朗讀和詞開銷的部分構(gòu)成的至少一個信息條目的描述。
4. 根據(jù)權(quán)利要求1所述的信息處理裝置,還包括輸出部件,用于輸出由 所述語形學分析部件創(chuàng)建的所述語形學分析信息以及由所述復合詞處理部件 檢測的所述復合詞。
5. 根據(jù)權(quán)利要求1所述的信息處理裝置,還包括分割詞素提取部件,用 于根據(jù)被登記在所述詞素信息登記部件中的所述詞素信息來進一步分析在由 所述語形學分析部件創(chuàng)建的所述語形學分析信息中包括的所述詞素,并從所 述詞素中提取分割詞素。
6. 根據(jù)權(quán)利要求5所述的信息處理裝置,還包括輸出部件,用于輸出由 所述語形學分析部件創(chuàng)建的所述語形學分析信息、由所述復合詞處理部件檢 測的所述復合詞、和由所述分割詞素提取部件提取的所述分割詞素。
7. 根據(jù)權(quán)利要求5所述的信息處理裝置,其中被登記在所述詞素信息登 記部件中的所述詞素信息包括關(guān)于感興趣的詞素是否是復合詞的信息;所述語形學分析部件在所述語形學分析信息中并入關(guān)于組成以所述語形 學分析信息的表格的形式的所述文本數(shù)據(jù)的詞素的每個是否被登記在所述詞 素信息登記部件中作為復合詞的信息;以及如果參考所述語形學分析信息發(fā)現(xiàn)感興趣的詞素被登記在所述詞素信息 登記部件中作為復合詞,所述分割詞素提取部件提取組成所述詞素的所述分 割詞素。
8. —種供用于分析文本數(shù)據(jù)的信息處理裝置使用信息處理方法,,所述 信息處理方法包括以下步驟獲取所述文本數(shù)據(jù);據(jù);根據(jù)所述分析的結(jié)果來創(chuàng)建以構(gòu)成所述文本數(shù)據(jù)的詞素的表格的形式的 語形學分析信息;以及通過使用用于創(chuàng)建未被登記在所述詞典數(shù)據(jù)中的復合詞的復合詞處理規(guī) 則,來將所述語形學信息中所包括的所述詞素組合為未被登記在所述詞典數(shù) 據(jù)中的所述復合詞,并檢測所創(chuàng)建的復合詞。
9. 一種用于使計算機進行用于分析文本數(shù)據(jù)的過程的程序,所述過程包 括步驟獲取所述文本l史據(jù);根據(jù)用于語形學地分析所述文本數(shù)據(jù)的詞典數(shù)據(jù)來分析所獲取的文本數(shù)據(jù);根據(jù)所述分析的結(jié)果來創(chuàng)建以構(gòu)成所述文本數(shù)據(jù)的詞素的表格的形式的 語形學分析信息;以及通過使用用于創(chuàng)建未被登記在所述詞典數(shù)據(jù)中的復合詞的復合詞處理規(guī) 則,來將所述語形學信息中所包括的所述詞素組合為未^:登記在所述詞典數(shù) 據(jù)中的所述復合詞,并檢測所創(chuàng)建的復合詞。
10. —種用于分析文本數(shù)據(jù)的信息處理裝置,包括 獲取部件,用于獲取所述文本數(shù)據(jù);詞素信息登記部件,用于登記在語形學地分析所述文本數(shù)據(jù)中使用的詞素信息;語形學分析部件,用于根據(jù)由所述詞素信息登記部件登記的所述詞素信 息來分析由所述獲取部件獲取的所述文本數(shù)據(jù),并用于創(chuàng)建以構(gòu)成所述文本數(shù)據(jù)的詞素的表格的形式的語形學分析信息;以及分割詞素提取部件,用于根據(jù)被登記在所述詞素信息登記部件中的所述 詞素信息來進一步分析在由所述語形學分析部件創(chuàng)建的所述語形學分析信息 中包括的所述詞素,并從所述詞素中提取分割詞素。
11. 一種供用于分析文本數(shù)據(jù)的信息處理裝置使用的信息處理方法,所 述信息處理方法包括以下步驟獲取所述文本數(shù)據(jù);根據(jù)用于語形學地分析所述文本數(shù)據(jù)的詞典數(shù)據(jù)來分析所獲取的文本數(shù)據(jù);根據(jù)所述分析的結(jié)果來創(chuàng)建以構(gòu)成所述文本數(shù)據(jù)的詞素的表格的形式的 語形學分析信息;以及根據(jù)所述詞典信息來進一步分析在所述語形學分析信息中包括的所述詞 素,并從所述詞素中提取分割詞素。
12. —種用于使計算機進行用于分析文本數(shù)據(jù)的過程的程序,所述過程 包括以下步驟獲取所述文本數(shù)據(jù); 據(jù); ""',' 、 "根據(jù)所述分析的結(jié)果來創(chuàng)建以構(gòu)成所述文本數(shù)據(jù)的詞素的表格的形式的 語形學分析信息;以及根據(jù)所述詞典信息來進一步分析在所述語形學分析信息中包括的所述詞 素,并從所述詞素中提取分割詞素。
13. —種記錄介質(zhì),其記錄根據(jù)權(quán)利要求9或12的程序。
14. 一種用于分析文本數(shù)據(jù)的信息處理裝置,包括 獲取部分,被配置用于獲取所述文本數(shù)據(jù);詞素信息登記部分,被配置用于登記在語形學地分析所述文本數(shù)據(jù)中使 用的詞素信息;語形學分析部分,被配置用于根據(jù)由所述詞素信息登記部件登記的所迷詞素信息來分析由所述獲取部分獲取的所述文本數(shù)據(jù),并創(chuàng)建以構(gòu)成所述文本數(shù)據(jù)的詞素的表格的形式的語形學分析信息;復合詞處理規(guī)則登記部分,被配置用于登記用于創(chuàng)建未被登記在所述詞 素信息登記部分中的復合詞的復合詞處理規(guī)則;以及復合詞處理部分,被配置以便通過使用被登記在所述復合詞處理規(guī)則登 記部分中的所述復合詞處理規(guī)則,所述復合詞處理部分將由所述語形學分析 部分創(chuàng)建的所述語形學分析信息中所包括的所述詞素組合為未被登記在所述 詞素信息登記部分中的所述復合詞,并檢測所創(chuàng)建的復合詞。
15. —種用于分析文本數(shù)據(jù)的信息處理裝置,包括獲取部分,被配置用于獲取所述文本數(shù)據(jù);詞素信息登記部分,被配置用于登記在語形學地分析所述文本數(shù)據(jù)中使 用的詞素信息;語形學分析部分,被配置用于根據(jù)由所述詞素信息登記部分登記的所述 詞素信息來分析由所述獲取部分獲取的所述文本數(shù)據(jù),并創(chuàng)建以構(gòu)成所述文 本數(shù)據(jù)的詞素的表格的形式的語形學分析信息;以及分割詞素提取部分,被配置用于根據(jù)被登記在所述詞素信息登記部分中 的所述詞素信息來進一步分析在由所述語形學分析部分創(chuàng)建的所述語形學分 析信息中包括的所述詞素,并從所述詞素中提取分割詞素。
全文摘要
在此公開了一種用于分析文本數(shù)據(jù)的信息處理裝置,包括獲取部件,用于獲取文本數(shù)據(jù);詞素信息登記部件,用于登記在語形學地分析文本數(shù)據(jù)中使用的詞素信息;語形學分析部件,用于分析由獲取部件獲取的文本數(shù)據(jù);復合詞處理規(guī)則登記部件,用于登記用于創(chuàng)建未被登記在詞素信息登記部件中的復合詞的復合詞處理規(guī)則;以及復合詞處理部件,用于通過使用被登記在復合詞處理規(guī)則登記部件中的復合詞處理規(guī)則,來將由語形學分析部件創(chuàng)建的語形學分析信息中所包括的詞素組合為未被登記在詞素信息登記部件中的復合詞,并用于檢測所創(chuàng)建的復合詞。
文檔編號G06F17/27GK101308492SQ20081010021
公開日2008年11月19日 申請日期2008年5月16日 優(yōu)先權(quán)日2007年5月16日
發(fā)明者小林賢一郎 申請人:索尼株式會社