專利名稱:地名表示詞典生成方法和地名表示詞典生成裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及在用郵件分檢機(jī)等實(shí)行的地名表示讀取處理中,主要在字符串核對(duì)處理時(shí)所使用的地名表示詞典的生成方法和生成裝置。尤其涉及從由標(biāo)準(zhǔn)的表示組成的地名表示列表中生成包含在地名表示中的單詞排列的差異和字符的差異(以后稱作相異表示)的地名表示詞典的生成方法和生成裝置。
為了讀取字符串,一般進(jìn)行由以下三個(gè)步驟組成的處理。
(1)字符分離從字符行圖象中分離字符圖案(2)字符識(shí)別各字符圖案的字種(字符碼)的識(shí)別(3)字符串核對(duì)核對(duì)預(yù)先存儲(chǔ)的讀取對(duì)象的字符串和字符識(shí)別結(jié)果,確定字符串讀取結(jié)果作為有關(guān)(1)字符分離和(2)字符識(shí)別的技術(shù),人們已經(jīng)知道例如文獻(xiàn)(Koga et al.、Segmentation of JapaneseHandwritten Characters Using Peripheral Feature AnalysisInternational Conference for Pattern Recognition、pp.1137-1141、1998)等。
作為有關(guān)(3)的字符核對(duì)技術(shù),有從字符識(shí)別結(jié)果的網(wǎng)格(Lattice)生成有限狀態(tài)自動(dòng)裝置(finite state automaton),并通過將讀取對(duì)象的字符串輸入到該裝置中提取候補(bǔ)單詞的方式(丸川等撰寫的“用于認(rèn)識(shí)手寫漢字住所的錯(cuò)誤修正算法”,信息處理論文雜志笫35卷笫6號(hào))等。另外,有通過使用隱馬爾可夫模型同時(shí)進(jìn)行字符分離、字符識(shí)別、字符串核對(duì)的方式(A.Kaltenmeier、”Sophi sticated Topology of Hidden MarkovModels for Cursive Script Recognition、Proceedings ofInternational Conference of Document Analysis andRecognition‘93、pp.139-142、1993)和探索性地認(rèn)識(shí)字符串的方法(古賀等撰寫的“住所認(rèn)識(shí)方法”特愿平9-238032)。將此處所使用的、預(yù)先準(zhǔn)備的讀取對(duì)象的字符串的集合叫做詞典,將用于地名讀取而存儲(chǔ)地名表示的詞典叫做地名表示詞典。
地名表示詞典在計(jì)算機(jī)存儲(chǔ)器中的形態(tài),例如在丸川等的方式中用樹結(jié)構(gòu)表現(xiàn),另外,在基于隱馬爾可夫模型的方式和探索性地認(rèn)識(shí)字符串的方法中采用網(wǎng)絡(luò)形式。在字符串核對(duì)處理中,由于通過將字符識(shí)別結(jié)果與讀取對(duì)象的字符串核對(duì),在字符識(shí)別處理中具有修正錯(cuò)誤的功能,因此,為了提高字符串讀取精度,在采用任何裝置的場(chǎng)合,也必須將認(rèn)識(shí)對(duì)象的字符串,即詞匯預(yù)先無遺漏地存儲(chǔ)在詞典文件中。即是說,必須盡可能提高作為讀取對(duì)象的登錄表示數(shù)目對(duì)全部表示數(shù)目的比例的詞典完備率。
在地名表示中,存在著也可以將“上之町”中的“之”寫成“ノ”或“の”、或者“大字”的字符串在地名表示中被省略這樣的各種各樣的相異表示。在設(shè)想了用郵件分檢機(jī)進(jìn)行地址讀取處理的場(chǎng)合,由于被寫在實(shí)際的郵件上的地址也存在上述那樣的表示的差異,因此,為提高地址讀取精度,必須在地名表示詞典中登錄相異表示,并提高詞典完備率。但是,當(dāng)實(shí)現(xiàn)字符串核對(duì)處理時(shí),從一開始就準(zhǔn)備完全網(wǎng)羅這些相異表示是有困難的。因此,對(duì)于已生成的地名表示詞典需要追加相異表示的工作。
對(duì)于對(duì)地名表示詞典的追加相異表示的問題,以往對(duì)“大田區(qū)”的字符串通過由人工追加“太田區(qū)”這樣的部分漢字的不同字符串來提高詞典完備率的方法(豐瀨的“地址讀取分檢機(jī)”、特開平5-169031)和將對(duì)“川越市”的“越市”和“市”那樣的部分字符串作為相異表示用人工追加的方法(小島的“地址讀取分檢機(jī)”、特開平7-39819)已為人們所熟知。另外,作為增加登錄在數(shù)據(jù)庫中的字符串的方法,預(yù)先準(zhǔn)備字符串的相異表示的對(duì)應(yīng)表,根據(jù)該表機(jī)械地追加相異表示的方法(臼田等的“賦予標(biāo)準(zhǔn)名系統(tǒng)”、特開平5-165619)等也為人們熟知。
日本的地名表示可以大致分成以下四種。
(1)使用字符不同的相異表示叫做“字符型表示”。例如,“野々下”和“野の下”“野ノ下”等。
(2)單詞省略的相異表示叫做“省略型相異表示”。
例如,省略都道府縣名的相異表示、省略“大字”、“字”的相異表示等。
(3)附加字符串的相異表示叫做“追加型相異表示”。
例如,在字等原來住所的特定中附加不必要的字符串的相異表示,對(duì)應(yīng)于“埼玉県川越市大字小ケ谷(Saitama-ken,Kawagoe-shi,Ohaza,Ogaya)”的“埼玉県川越市大字小ケ谷東関(Saitama-ken,Kawagoe-shi,Ohaza,Ogaya,Aza,Higashizeki)”等。
(4)街道名和通稱的相異表示叫做“別名型相異表示”。
例如,對(duì)應(yīng)于用在京都等地經(jīng)??吹?、并且完全不同的單詞表示地名的“京都市下京區(qū)大政所町(Kyoto-shi,Shimokyo-ku,Ohmandokoro-machi)”的“京都市下京區(qū)烏丸仏光寺下る(Kyoto-shi,Shimokyo-ku,Karasuma,Bukkouji,Kudaru)”等。
例如,以“埼玉県川越市小ケ谷(Saitama-ken,Kawagoe-shi,Ogaya)”這個(gè)地名作為例子,除(1)、(2)的字符型相異表示、省略型相異表示之外還存在以下12種表示。它們是“埼玉県川越市小ケ谷”“埼玉県川越市小ヶ谷”“埼玉県川越市小が谷”“埼玉県川越市大字小ケ谷”“埼玉県川越市大字小ヶ谷”“埼玉県川越市大字小が谷”“川越市小ケ谷”“川越市小ヶ谷”“川越市小が谷”
“川越市大字小ケ谷”“川越市大字小ヶ谷”“川越市大字小が谷”若再將“埼玉県川越市小ケ谷東田(Saitama-ken,Kawagoe-shi,Ogaya,Higashida)”、“埼玉県川越市小ヶ谷東関(Saitama-ken,Kawagoe-shi,Ogaya,Higashizaki)”、、“埼玉県川越市小ケ谷西関(Saitama-ken,Kawagoe-shi,Ogaya,Nishizeki)”等小字名合并使用的(3)中的追加型相異表示考慮在內(nèi),并與上述的12種相異表示組合,那么共存在84種相異表示。若再考慮在京都等城市中明顯看到的城鎮(zhèn)名和街名(4)的別名型相異表示,那么,例如在京都市下京區(qū)的地名表示中的相異表示的數(shù)目竟從數(shù)千種上升到數(shù)萬種。
在郵件分檢機(jī)和住所讀取中根據(jù)地名讀取處理的應(yīng)用地址,最小也必須讀取一個(gè)或多個(gè)市區(qū)村鎮(zhèn)的住所,最大必須讀取全國的住所。為了提高讀取精度,必須生成追加這些地名表示的相異表示、提高詞典完備率的地名表示詞典。
但是,特別地將達(dá)到數(shù)萬種表示追加到地名表示詞典中是困難的。另外,即使想要準(zhǔn)備只是單詞數(shù)目的相異表示的對(duì)應(yīng)表,并自動(dòng)進(jìn)行相異表示的追加,相異表示的對(duì)應(yīng)表的生成必須對(duì)每個(gè)單詞特別地進(jìn)行,也同樣是困難的。再談到有關(guān)單詞排列的相異表示(特定的單詞、字符串的省略等)由于其組合的數(shù)目增多,特別地追加是困難的,當(dāng)然,具有相異表示的對(duì)應(yīng)表也是困難的。若再想要準(zhǔn)備有關(guān)特定的字符的置換規(guī)則,并自動(dòng)追加相異表示,例如就會(huì)追加將單詞的最前面的“野”置換為“ノ”等錯(cuò)誤的相異表示,這樣生成的地名表示詞典不僅其容量增大,而且對(duì)讀取精度帶來不利的影響。
為了抑制相異表示的地名表示詞典的容量的增大,使用文脈自由文法的生成規(guī)則表現(xiàn)地名表示的相異表示的方法已為人們知曉(古賀的“地名表達(dá)方法、地名字符串認(rèn)識(shí)方法及裝置”、特愿平11-187753)。即在每個(gè)構(gòu)成地名字符串的一部分或全部的部分字符串中,通過定義字符或句法范疇的配置、并由字符或定義了的句法范疇的配置構(gòu)成的句法范疇來表示地名字符串。例如定義“ケ”、“ケ”、“が”作為一個(gè)句法范疇,并且如果通過該句法范疇定義上述字符所使用的字符串,那么就會(huì)對(duì)所有的地名表示追加有關(guān)“ケ”、“ケ”、“が”的相異表示。此處,所謂句法范疇是指對(duì)于存在具有相同意義、相同用法、相同發(fā)音等某些共同性的字符串來說將它們的字符串作為要素的集合。另外,將附加在這種集合上的名稱叫做句法范疇。
若使用文脈自由文法記述地名表示,那么,由于在地名表示的多處出現(xiàn)的單詞和部分字符串的相異表示用同一句法范疇表示,因此,減少相異表示的追加作業(yè)的次數(shù)。但是,在各個(gè)地名表示中,必須用定義了相異表示的存在部分的句法范疇置換。這時(shí),將地名表示的某一部分字符串置換成對(duì)應(yīng)的句法范疇的作業(yè)必須通過人工進(jìn)行,因此地名表示詞典的生成仍然是困難的。
本發(fā)明的第一目的在于不是特定地進(jìn)行對(duì)地名表示的相異表示的生成和追加,而是盡可能地自動(dòng)追加這些相異表示,并提供詞典完備率高的地名表示詞典的生成方法。
在不能向地名表示詞典自動(dòng)地追加相異表示的場(chǎng)合,為了提高詞典完備率必須由人工進(jìn)行表示的追加。在這種場(chǎng)合,向地名表示詞典的相異表示的追加部分由自動(dòng)追加的表示和用人工追加的表示的二個(gè)集合組成。在地名表示詞典生成時(shí),通常存在只由標(biāo)準(zhǔn)的地名表示組成的地名表示表,以此為基礎(chǔ),按照需要追加相異表示后生成地名表示詞典。當(dāng)在標(biāo)準(zhǔn)的地名表示表中增加變更時(shí),為了在地名表示詞典中能反映這種變更,必須再次實(shí)行相異表示的追加處理。除自動(dòng)地追加的表示外,由人工追加的表示有可能迫使地名表示詞典的編者在增加詞典生成成本的同時(shí),可能遺漏對(duì)以前追加的表示的追加,并可能降低詞典完備率。
本發(fā)明的第二目的在于,提供由人工追加在地名表示詞典中不能自動(dòng)地生成和追加的地名表示的相異表示的設(shè)備,同時(shí),在以地名詞典生成時(shí)為基礎(chǔ)的標(biāo)準(zhǔn)的地名表示表被變更時(shí)也提供一邊保存在詞典生成時(shí)所追加的各種相異表示和在地名表示詞典中所增加的變更,一邊從新的地名表示表中生成地名表示詞典的設(shè)備。
在本發(fā)明中,將被劃分成都道府縣、市區(qū)郡町村、町名·大字、字的每個(gè)住所的層次的單詞的文本數(shù)據(jù)(text data)設(shè)想作為標(biāo)準(zhǔn)的地名表示表。即使在地名表示沒有被劃分的場(chǎng)合,也可通過由作為“県(prefecture)”和“市(city)”的關(guān)鍵字(key)的字符分割地名表示從而很容易地進(jìn)行變換。另外,設(shè)想用文脈自由文法記述的地名表示的集合作為本發(fā)明中的地名表示詞典。即在每個(gè)構(gòu)成地名表示的一部分或全部的部分字符串中,定義字符或句法范疇的配置,并用由字符或定義了的句法范疇的配置組成的句法范疇表示地名字符串。
為了解決盡可能自動(dòng)地將地名表示的相異表示追加到地名表示詞典中的上述課題,本發(fā)明提供地名表示詞典生成裝置,該裝置具有將分割成每個(gè)住所的層次的單詞的地名表示的文本數(shù)據(jù)變換為文脈自由文法的表現(xiàn)的裝置,以及具有使字符串和在文脈自由文法中的句法范疇對(duì)應(yīng)的知識(shí)、使文脈自由文法中的句法范疇和句法范疇的配置與其它的句法范疇對(duì)應(yīng)的知識(shí),并使用這些知識(shí)將相異表示追加到用文脈自由文法表示的地名表示中的裝置。
作為使在這里使用的字符串和文脈自由文法中的句法范疇對(duì)應(yīng)的知識(shí)以及使文脈自由文法中的句法范疇和句法范疇的配置與其它的句法范疇對(duì)應(yīng)的知識(shí),提供以下二個(gè)種類。
A1是由用于追加有關(guān)地名單詞的定義中的字符差異的相異表示的、文脈自由文法的句法范疇的定義語句和用于啟動(dòng)從字符串到句法范疇的置換處理的條件組成的知識(shí)。將它叫做“字符差異補(bǔ)全型知識(shí)”。
將“上之町”中的“之”、“ノ”、“の”,或者“ガ”、“ケ”、“が”等字符作為一個(gè)句法范疇定義,并將地名表示字符串中的上述字符置換為句法范疇。
A2是將地名表示定義語句中的句法范疇的排列作為條件由記述對(duì)句法范疇的置換、省略等、重新追加的定義語句的內(nèi)容的項(xiàng)目組成的知識(shí)。將它叫做“單詞差異補(bǔ)全型知識(shí)”。
關(guān)于與都道府縣名、市區(qū)郡町村名連接的句法范疇的排列,定義了相對(duì)于都道府縣名可能省略特定的句法范疇的排列的其它句法范疇的排列。
當(dāng)存在不能自動(dòng)地向地名表示詞典追加的表示時(shí),若指定適當(dāng)?shù)木浞ǚ懂牶途浞ǚ懂牭呐渲?,那么,通過具有顯示表現(xiàn)該范疇的字符串的設(shè)備、輸入字符串的設(shè)備、將地名表示詞典的編者輸入的字符串追加到句法范疇表現(xiàn)的地名表示中的設(shè)備能夠做到將不能自動(dòng)地追加的地名表示追加到地名表示詞典中。
而且,在將上述輸入的字符串追加到句法范疇表現(xiàn)的地名表示的設(shè)備中,通過具有將只由被追加的地名表示字符串組成的句法范疇在存儲(chǔ)器中生成或輸出到文件中的設(shè)備,以及對(duì)用文脈自由文法表現(xiàn)的地名表示詞典追加上述文件被輸出、追加的地名表示字符串的設(shè)備,在能夠用人工追加在地名表示詞典中不能自動(dòng)地生成和追加的相異表示的同時(shí),在被分割成每個(gè)住所的層次的單詞的地名表示表被變更時(shí)也可一邊保存在以前的詞典生成時(shí)所增加的變更,一邊生成新的地名表示詞典。
在此以前所謂地名表示詞典可以假定是列舉地名表示字符串的文本、用文脈自由文法記述的文本,但在郵件分檢機(jī)中的地址讀取、或其它的住所字符串讀取處理中所使用的地名表示詞典被認(rèn)為有以下三種類型的形態(tài)。
B1存儲(chǔ)在文件中的“詞典源文件”B2存儲(chǔ)在存儲(chǔ)器中的“詞典表”B3(1)和(2)的中間階段的“詞典二進(jìn)制文件”在提高被登錄的地名表示的維護(hù)性、可讀性的場(chǎng)合采用“詞典源文件”。為了謀求與字符核對(duì)處理的親和性、處理速度的高速化,在計(jì)算機(jī)上采用“詞典表”的形態(tài)。而且,為了縮小在保存地名表示詞典時(shí)的磁盤空間,采用“詞典二進(jìn)制文件”的形態(tài)。即使在采用這些形態(tài)中任何形態(tài)的場(chǎng)合,其信息量,即被登錄的地名表示是相等的。另外由計(jì)算機(jī)翻譯用文脈自由文法書寫的詞典源文件,并變換為詞典二進(jìn)制文件、或詞典表的形態(tài)可以通過使用文獻(xiàn)(中田,“編譯程序”,ISBN4-7828-5057-3)等中記述的方法來實(shí)現(xiàn)。
在以后的說明書中,設(shè)想將B1的詞典源文件作為地名表示詞典的形態(tài),但在本發(fā)明中,在地名讀取處理中使用的地名表示詞典即使在采用詞典表和詞典二進(jìn)制文件的形態(tài)的場(chǎng)合同樣也能使用。
圖1是表示實(shí)施例的地名詞典生成處理的全部流程的構(gòu)成圖。
圖2是表示在同樣地名表示列表中的都道府縣名的單詞表例子。
圖3是表示在標(biāo)準(zhǔn)的地名表示列表中的市區(qū)郡町村名的單詞表例子。
圖4是表示在標(biāo)準(zhǔn)的地名表示列表中的町名和大字名的單詞表的例子。
圖5是表示在標(biāo)準(zhǔn)的地名表示列表中的字名的單詞表的例子。
圖6是表示在標(biāo)準(zhǔn)的地名表示列表中的地名表示的代碼表的例子。
圖7是地名表示的文脈自由文法的記述例子。
圖8是向地名表示的形式語言表現(xiàn)的變換處理的流程圖。
圖9是全部地名表示的相異表示追加前的定義文件的例子。
圖10是地名單詞定義文件生成處理例子(其1)。
圖11是市區(qū)郡町村字段的單詞分割處理的流程圖。
圖12是地名單詞定義文件生成處理例子(其2)。
圖13是地名單詞定義文件生成處理例子(其3)。
圖14是地名表示定義文件生成處理例子(其1)。
圖15是地名表示定義文件生成處理的流程圖。
圖16是地名表示定義文件生成處理例子(其2)。
圖17是知識(shí)的相異表示的追加處理的流程圖。
圖18A,18B是向知識(shí)的字符串的句法范疇的置換的例子。
圖19是向通用字符串的句法范疇的變換的例子。
圖20A,20B,20C是向知識(shí)的地名表示定義的相異表示的追加的例子。
圖21是用于向地名單詞定義的相異表示追加的知識(shí)的例子。
圖22是用于向地名表示定義的相異表示追加的知識(shí)的例子。
圖23A,23B,23C是用于手工作業(yè)的地名表示的相異表示追加的用戶接口例子。
圖24A,24B,24C同樣是用于手工作業(yè)的地名單詞追加的用戶接口例子。
圖25是在文脈依存相異表示追加和刪除處理中的相異表示追加的流程。
圖26是在文脈依存相異表示追加和刪除處理中的相異表示刪除的流程圖。
圖27是追加、修正相異表示定義的例子。
圖28是事例的相異表示和刪除處理的流程。
圖29是圖解形式的地名表示詞典的例子。
圖30是英國的地名表示的相異表示的例子。
圖31是用文脈自由文法記述圖30的表示例子的例子。
圖32是地名表示詞典生成裝置的硬件構(gòu)成的例子。
作為本發(fā)明的地名表示詞典生成方法的實(shí)施形態(tài)的一例,就有關(guān)包含對(duì)日本的地名表示的相異表示的地名表示詞典的生成進(jìn)行說明。在這里所謂日本的地名表示假定是表現(xiàn)直到都道府縣名、市區(qū)郡町村名、町名(或者大字、字名)的字符串。即在“東京都國分寺市東戀ケ窪1丁目280番地(Tokyo-to,Kokubunji-shi,Higashi-koigakubo,1-chame,280-banchi)”的住所表示中,將“東京都國分寺市東戀ケ窪(Tokyo-to,Kokubunji-shi,Higashi-koigakubo)”的部分叫做地名表示。
最初,使用圖1說明地名表示詞典生成處理的流程。
作為地名表示詞典生成處理的輸入,準(zhǔn)備作為列舉了標(biāo)準(zhǔn)的地名表示的文件的地名表示列表101。標(biāo)準(zhǔn)的地名表示被分割成單詞,并作為單詞的排列存儲(chǔ)在地名表示列表中。在形式語言表現(xiàn)變換處理102中,從被分割成該單詞的地名表示列表變換為預(yù)先定義的、以在表現(xiàn)地名表示的文脈自由文法中作為準(zhǔn)則的形式記述的地名核對(duì)用的地名表示詞典(以下稱作地名表示詞典)103。再有,在該階段,在地名表示詞典中只包含標(biāo)準(zhǔn)的地名表示。在以后的處理中,地名表示以由文脈自由文法所表現(xiàn)的形式進(jìn)行處理。對(duì)用文脈自由文法所表現(xiàn)的標(biāo)準(zhǔn)的表示,進(jìn)行知識(shí)的相異表示追加處理104。此處,對(duì)于在“上之町(Kaminomachi)”的單詞向地名讀取處理輸入時(shí)被寫成“上ノ町”、“上の町”的場(chǎng)合,要預(yù)先準(zhǔn)備集中了被夾在漢字中間的“之”使“ノ”、“の”保持在相異表示中的規(guī)則和有關(guān)“川越市大字藤間(Kawagoe-shi,Ohaza)”的“大字”可以省略的地名表示法的規(guī)則的地名表示追加用的知識(shí)105。
對(duì)于使用地名表示追加用的知識(shí)105追加相異表示的地名表示,在文脈依存相異表示追加處理106中,用人工等特定的形式追加相異表示107,并輸出地名核對(duì)用的地名表示詞典103。
此處被追加的相異表示不能使用地名表示用的知識(shí)105自動(dòng)地追加,它是將“城內(nèi)市本町”表示為“城內(nèi)市大手前”那樣的相異表示。在包含文脈依存相異表示追加處理106中所追加的表示的地名核對(duì)用的地名表示詞典103之內(nèi),在追加和修正表示輸出108中,只抽取被追加和修正的部分,并以文脈自由文法的形式作為追加和修正相異表示定義109被輸出和保存。
當(dāng)在標(biāo)準(zhǔn)地名表示列表101中增加變更等110、并重新進(jìn)行地名詞典生成時(shí),該追加和修正相異表示定義109在事例的相異表示追加處理111中作為過去被增加的相異表示被追加到地名表示詞典103中。由此可見,每當(dāng)?shù)孛硎驹~典生成時(shí),可以做到不進(jìn)行人工的特定相異表示追加,并將地名詞典生成中附加的手工作業(yè)控制在最小限度。此處使用的地名表示追加用的知識(shí)105也可能由人工進(jìn)行新的知識(shí)追加等編輯作業(yè)112。
此處所生成的地名表示詞典103經(jīng)由網(wǎng)絡(luò)113等被裝入郵件分檢機(jī)114和其它的地名讀取裝置115,并用于地名表示讀取處理。
重新生成的地名表示詞典103也可以通過媒體變換裝置116進(jìn)行存儲(chǔ)媒體的變換,并作為地名表示媒體117進(jìn)行配置。
以下將詳細(xì)地說明圖1中各數(shù)據(jù)、知識(shí)和處理。
在圖1使用的數(shù)據(jù)中,最初說明有關(guān)地名表示列表101。日本的地名表示可以分成(1)都道府縣、(2)市區(qū)郡町村、(3)町名和大字,根據(jù)需要可以再分成(4)字的層次的單詞。例如,地名表示“東京都國分寺市東戀ケ窪(Tokyo-to,Kokubunji-shi,Higashikoigakubo)”作為(1)都道府縣名可以分割出“東京都(Tokyo-to)”、作為(2)市區(qū)郡町村可以分割出”國分寺市(Kokubunji-shi)”、作為(3)町名和大字可以分割出“東戀ケ窪(Higashikoigakubo)”的單詞。另外,在其它的地名表示“愛知県名古屋市南區(qū)本星崎町字宮浦(Aichi-ken,Nagoya-shi,Minami-ku,Motohoshizaki-machi,Aza,Miyaura)”中,作為(1)都道府縣名可以分割出“愛知県(Aichi-ken)”、作為(2)市區(qū)郡町村名可以分割出“名古屋市南區(qū)(Nagoya-shi,Minami-ku)”、作為(3)町名和大字可以分割出“本星崎町(Motohoshizaki-machi)”、作為(4)字名可以分割出“字宮浦(Aza,Miyaura)”的單詞。作為本實(shí)施例中的地名表示列表,各地名表示按照住所的層次分割成單詞,將同一層次的單詞集中在同一文件中的同時(shí),將代碼分配給各單詞,并設(shè)想地名表示通過指定分配給單詞的代碼來表現(xiàn)的形式。將這樣的同一層次的單詞集中起來的文件叫做地名單詞列表文件。另外為了讀取經(jīng)常被寫在直接郵寄(direct mail)等地址中的片假名的地址,假定考慮也可以生成片假名的地名表示詞典,并在每個(gè)上述住所層次的單詞中分配注音假名。在沒有生成片假名的地名表示詞典的場(chǎng)合,在以后的說明中,也可以刪除有關(guān)片假名的部分。地名表示通過指向上述地名單詞列表文件中的地名單詞的指針的排列被構(gòu)成,并由代碼列表文件來表現(xiàn)。
具體地說,有關(guān)都道府縣名的地名單詞列表文件變成圖2那樣。都道府縣代碼201對(duì)于都道府縣名202是專門被分配的號(hào)碼。都道府縣注音假名203將都道府縣名的讀數(shù)用片假名存儲(chǔ)。對(duì)于市區(qū)郡町村名的地名單詞列表文件變成圖3那樣。都道府縣代碼301是其市區(qū)郡町村存在的都道府縣名的代碼。它與寫入圖2所示的都道府縣地名單詞列表文件中的都道府縣代碼是相同的。所謂市區(qū)郡町村代碼302對(duì)于市區(qū)郡町村名302是專門被分配的號(hào)碼。像政令指定都市那樣的存在區(qū)的場(chǎng)合,將名古屋市南區(qū)作為一個(gè)單詞存儲(chǔ)。市區(qū)郡町村注音假名304將市區(qū)郡町村名的讀數(shù)用片假名存儲(chǔ)。對(duì)于町名和大字的地名單詞列表文件變?yōu)閳D4那樣。都道府縣代碼401、市區(qū)郡町村代碼402是其町名和大字存在的都道府縣、市區(qū)郡町村的代碼。町名和大字代碼403是分配給町名和大字名404的號(hào)碼。町名注音假名405用假名存儲(chǔ)對(duì)町名和大字名的讀數(shù)。對(duì)標(biāo)準(zhǔn)地名表示預(yù)先也可能具有相異表示。在地名單詞列表文件中預(yù)先將相異表示存儲(chǔ)在只是存儲(chǔ)在相異表示數(shù)目406中的數(shù)目的相異表示欄407中。例如當(dāng)對(duì)于“石元町(Ishimoto-cho)”408的相異表示“石本町(Ishimoto-cho)”409存在時(shí)被存儲(chǔ)在文件中。相異表示由于以后由規(guī)則,或由人工追加時(shí),可能省略地名單詞列表文件中的相異表示字段。關(guān)于字名的地名單詞列表文件像圖5那樣。都道府縣代碼501、市區(qū)郡町村代碼502、町名和大字代碼503是該字分別存在的都道府縣、市區(qū)郡町村、町名和大字的代碼。字代碼504對(duì)于字名505是專門分配的代碼。字注音假名506用片假名存儲(chǔ)對(duì)字名的讀數(shù)。如果相異表示被登記在字名中,那么也可以保持在相異表示數(shù)507、相異表示508字段中。各地名表示用圖6中所示那樣的代碼列表文件來表現(xiàn)。601是用于識(shí)別各地名表示的記號(hào)。此處使用對(duì)于地名表示專門分配的7位郵政號(hào)碼601。接著郵政號(hào)碼之后,通過指定都道府縣代碼602、市區(qū)郡町村代碼603,町名和大字代碼604、字代碼605記述地名表示。
在本實(shí)施例中作為地名表示詞典生成處理的輸入設(shè)想以上所說明的地名單詞列表文件和代碼列表文件,但也可以是表示“東京都國分寺市東戀ケ窪(Tokyo-to,Kokubunji-shi,Higashikoigakubo)”那樣的地名的字符串的列表形式。例如,對(duì)于表示地名的字符串,通過作為“県(ken)”、“市(shi)”、“町(machi)”、大字(Oaza)“、”字(Aza)”的關(guān)鍵字的字符能夠?qū)⒆址指畛蓡卧~,并通過將代碼分配給單詞,就能變換成上述地名單詞列表文件和代碼列表文件的形式。因此,作為地名詞典生成處理的輸入,即使將地名單詞列表文件和代碼列表文件的形式作為前提也不會(huì)失去通用性。
作為記述圖1中的地名表示詞典103的形式示出用于表示地名的文脈自由文法的例子。
使用以下符號(hào)作為定義的文脈自由文法的終止符號(hào)。它們作為文脈自由文法的記述法具有與一般的BNF記述法(Backus-Naur-Form)(“編譯程序”,ISBN4-7828-5057-3,作者中田)同樣的意義。
∷=置換。意味著能夠用右邊的句法范疇或字符的配置置換左邊的句法范疇。任選。意味著沒有[]內(nèi)的記述也可以。
|選擇。意味著選擇右邊、左邊的任何一個(gè)。
()結(jié)合。在前后變量更前面評(píng)價(jià)括弧中的變量。
<>表示句法范疇的變量名。語句的終止。
begin變量的有效范圍開始。
End變量的有效范圍終止。
此外,阿拉伯?dāng)?shù)字的排列、漢字·平假名·片假名的排列作為終止符被使用。作為非終止符準(zhǔn)備“地名表示”、“地域塊群”、“地名塊群”、“地域塊”、“地名塊”、“地名聲明”、“變量定義”、“變量式”、“變量項(xiàng)”、“地名表示定義”、“數(shù)字串”、“字符串”、“英文字”13種。
表示該文脈自由文法的生成規(guī)則如下。
“地名表示”→“地名聲明”“地域塊群”“地名表示”→“地名聲明”“町域塊群”“地域塊群”→“地域塊群”“地域塊”“地域塊群”→“地域塊”“地名塊群”→“地名塊群”“地名塊”“地名塊群”→“地名塊”“地域塊”→begin“地名聲明”“地名塊群”end“地域塊”→begin“地名聲明”“地域塊群”end“地名塊”→begin(“數(shù)字串”)“地名聲明”“地名表示定義”end“地名聲明”→“地名聲明”“變量定義”“地名聲明”→NULL“變量定義”→“町域變量名”∷=“變量式”“變量式”→“變量式”|“變量項(xiàng)”“變量式”→“變量式”“變量項(xiàng)”“變量式”→“變量項(xiàng)”“變量項(xiàng)”→[“變量式”]“變量項(xiàng)”→(“變量式”)“變量項(xiàng)”→“町域變量名”“變量項(xiàng)”→“字符串”“地名表示定義”→<“數(shù)字串”>∷=“變量式”“町域變量名“→<”英文字”“字符串”>
此處非終止符“數(shù)字串”、“字符串”、“英文字”分別表示數(shù)字的排列、漢字·平假名·片假名的排列、阿拉伯字母的終止符。另外,這些符號(hào)按以下順序的優(yōu)先等級(jí)評(píng)價(jià)。
(1)在<W“字符串”>和<“數(shù)字”>中記述的句法范疇的各定義(2)[]和()的括弧類。在嵌套的圓括號(hào)中使用括弧類時(shí)優(yōu)先評(píng)價(jià)內(nèi)側(cè)的括弧。
(3)|(4)∷=此外,準(zhǔn)備“#include<文件名>”作為宏命令。對(duì)于該語句,將用在“文件名”中指定的文脈自由文法記述的地名表示的文件進(jìn)行宏展開。因此就能夠?qū)⒂梦拿}自由文法記述的地名表示分割成多個(gè)并保持。例如,如果對(duì)應(yīng)住所的層次分割文件,那么不必書寫同一文脈自由文法的定義語句,并容易管理。另外,用“/*”和“*/”包圍的部分作為注釋使用。
作為例子,將用文脈自由文法記述包含“愛知県名古屋市南區(qū)本星崎町(Aichi-ken,Nagoya-shi,Minami-ku,Motohoshizaki-cho)”的相異表示的地名表示的例子示于圖7中。在本實(shí)施例中,作為用文脈自由文法記述的地名表示的文件分割成以下四種類型,生成地名表示詞典。這四種類型是,C1將地名單詞作為句法范疇定義的文件稱作地名單詞定義文件。
C2根據(jù)句法范疇定義地名表示的文件稱作地名表示定義文件。
C3根據(jù)上述C1,C2定義全體地名表示的文件稱作全表示定義文件。
C4將與地域無關(guān)所使用的字符串作為句法范疇定義的文件稱作共同表示定義文件。
上述C4的文件是作為用于預(yù)先追加在地名詞典生成處理中的相異表示的地名表示追加用的知識(shí)105事前準(zhǔn)備的文件。
接著,在圖1的處理中,說明有關(guān)形式語言表現(xiàn)變換處理102。圖8是表示處理流程的流程圖。下面,將“名古屋市南區(qū)(Nagoyashi,Minami-ku)”用作例子說明從作為標(biāo)準(zhǔn)的地名表示列表的住所的各層次的地名單詞列表文件和代碼列表文件變換為根據(jù)文脈自由文法的表現(xiàn)形式的變換處理。
作為在形式語言表現(xiàn)變換處理102中的第一步驟(步驟801),生成定義上述C3的全體地名表示的文件。圖9中示出定義有關(guān)名古屋市南區(qū)的全體地名表示的文件的一部分。在定義全體地名表示的文件的生成中,首先設(shè)定在上述C1,C2的名古屋市南區(qū)的地名單詞定義文件和地名表示定義文件的名稱,并存儲(chǔ)在存儲(chǔ)器中。其次,為了參照不依存地域的句法范疇,在全體表示定義文件的第一行中輸出包含上述C4的文件的命令901。繼而,為了明確示出定義名古屋市南區(qū)的地名表示,在文件的第二行中輸出“begin”902。然后,為了參照地名單詞定義文件、地名表示定義文件,在第三行和第四行中分別輸出在名古屋市南區(qū)中的地名單詞定義文件的包含語句903和名古屋市南區(qū)的地名表示定義文件的包含語句904。最后,為了明確示出結(jié)束名古屋市南區(qū)的地名表示,在第五行輸出“end”語句905。在定義多個(gè)地域的地名表示時(shí),可以反復(fù)進(jìn)行上述的“begin”和“end”之間的語句的生成。另外,通過在都道府縣、市區(qū)町村的層次中分別分割地名單詞的定義文件和地名表示的定義文件,例如在生成有關(guān)橫跨名古屋市內(nèi)的多個(gè)區(qū)的地名表示的定義文件時(shí),只一次包含有關(guān)都道府縣和市的定義文件就可以解決,并減少地名表示詞典的冗余度。因此,可以使“begin”“end”成為子結(jié)構(gòu)。
作為在形式語言表現(xiàn)變換處理102中的第二步驟,進(jìn)行地名單詞定義文件生成處理802。從住所各層次的地名單詞列表文件中生成地名單詞定義的文件。首先,在地名單詞列表文件中,對(duì)于在都道府縣名、市區(qū)郡町村名、町名·大字名、字名中所記入的單詞將生成句法范疇后輸出到地名單詞定義文件中。句法范疇的名稱假定是該單詞本身。這時(shí),作為句法范疇名稱前面的英文字母對(duì)于都道府縣名的范疇加上“P”,對(duì)于市區(qū)郡町村加上“C”,對(duì)于町名·大字加上“T”,對(duì)于字名加上“V”。在市區(qū)郡町村名字段中,即使在混合市、區(qū)、郡和町村的場(chǎng)合也生成不將它們分割、作為一個(gè)變量定義的語句。例如,對(duì)于“愛知県”的句法范疇的名稱變?yōu)椤?amp;lt;P愛知県>”。再使用句法范疇表示在地名單詞列表文件中的都道府縣代碼、市區(qū)郡町村代碼、町名·大字代碼、字代碼,并以注釋形式附加在各行的排頭。對(duì)于名古屋市南區(qū)的地名單詞,將在此之前進(jìn)行處理后生成的地名單詞定義文件的例子示于圖10中。被行首的注釋符號(hào)“/*”“*/”所包圍的部分繼“!”之后寫上表示都道府縣等的代碼。例如,行1001在繼“23”之后表示名古屋市南區(qū)的代碼“112”夾住“!”并記入。通過從都道府縣代碼起按住所的層次排列代碼,就能夠保持地名單詞間的連接關(guān)系。另外,在地名表示列表的地名單詞列表文件中,如果存儲(chǔ)有關(guān)在圖3和圖4中所示那樣的地名單詞的相異表示,那么像行1002那樣在定義語句的右邊加上“|”隔開。
在這里,像行1002和1003那樣,作為市區(qū)郡町村名,在變?yōu)椤啊小珔^(qū)(…shi…ku)”和“~郡~町(…gun…machi)”的場(chǎng)合,通過使“~市(…shi)”和“~郡(…gun)”的部分通用化就能夠減小地名表示詞典的冗余度。因此作為關(guān)于地名單詞定義文件生成處理的下次處理,將這些字符串分割成地名單詞。在關(guān)于市區(qū)郡町村名的地名單詞列表文件中寫入的字符串由以下六種類型。
(1)~市(2)~市~區(qū)(3)~區(qū)(4)~郡~町(5)~町(6)~郡~村
(7)~村關(guān)于上述六種類型使用圖11說明地名單詞分割處理的流程。在步驟1101中,最初通過觀察字段中的最后的字符,可以用組區(qū)分為(1)、(2)(3)、(4)(5)、(6)(7)的四個(gè)組。關(guān)于(1)組在步驟1102中進(jìn)行,并照原樣將字符串作為地名單詞。關(guān)于(2)(3)組可以通過在字符串中是否包含“市(shi)”進(jìn)行區(qū)分,關(guān)于后2組可以通過在字符串中是否包含“郡(gun)”分別進(jìn)行區(qū)分。關(guān)于(2)、(4)、(6)3組將分割成2個(gè)單詞。關(guān)于2組,在“市(shi)”的前后分出單詞。關(guān)于(4)(6)組同樣也必須將“郡(gun)”隔開,但在字段中有時(shí)包含多個(gè)“郡上郡八幡町(Gunjyo-gun,yahata-machi)”等“郡(gun)”。在這種場(chǎng)合中,為了將(4)、(6)也正確地分割成單詞,設(shè)定以下那樣的規(guī)則。
從字段中的第二字符開始搜索,在最初出現(xiàn)的“郡(gun)”的后面進(jìn)行分割。關(guān)于分割后的單詞,對(duì)于表示政令指定都市或郡的第一個(gè)單詞的范疇名附加<O對(duì)于表示、區(qū)、町村的第二個(gè)單詞的范疇名中附加<W來區(qū)別。將如果不出現(xiàn)“郡(gun)”就不分割的全體字符串作為以<W開始的范疇進(jìn)行定義(步驟1103、1104)。對(duì)于此處沒有分割的、行1002“尾張旭市(Owariasahi-shi)”那樣的單詞也作為以<0開始的定義語句將所生成的以<C開始的定義語句進(jìn)行再定義。這時(shí),從以<O開始的變量名起將刪除末尾的“市(shi)”、“町(cho)”、“村(mura)”。再以地名單詞定義文件的行首的地名代碼為基礎(chǔ),將用以“<P”開始的句法范疇所表示的都道府縣名和用以<C開始的句法范疇所表示的市區(qū)郡町村名組合起來。因此,以<C開始的句法范疇的定義變成定義從都道府縣名到市區(qū)郡町村的表示。在此之前的處理中所生成的地名單詞定義文件的例子在圖12中示出。
作為在地名單詞定義文件生成處理802中第三次處理,將定義語句的右邊只由句法范疇名組成的定義語句移到地名表示定義文件中。以<C開始的句法范疇的定義語句在它的右邊也只由已經(jīng)被定義的句法范疇組成。因此,只抽取以<C開始的定義語句,并輸出到通過另一種途徑接著生成的地名表示定義文件中。這樣,地名單詞的句法范疇的定義和地名表示的句法范疇的定義就完全被分割。這樣一來,在生成漢字的地名表示詞典和片假名的地名表示詞典的場(chǎng)合,除了分別生成地名單詞的句法范疇的定義文件之外,由于地名表示的句法范疇的文件能夠在漢字和片假名的詞典中通用,因此有減小地名表示詞典的冗余度的效果。由以上處理所生成的地名單詞定義文件示于圖13,被抽取的以<C開始的句法范疇的定義語句示于圖14。
作為形式語言表現(xiàn)變換處理102的最后步驟,進(jìn)行地名表示定義文件生成處理803。使用圖15和處理例圖16說明處理流程。
首先,在步驟1501中檢查是否是代碼文件的末尾,若是末尾就結(jié)束處理。如果剩余未處理的地名表示,將轉(zhuǎn)移到步驟1502,并將特定了地名表示的代碼作為地名表示定義文件的注釋行從代碼文件的都道府縣、市區(qū)郡町村、町名·大字代碼中輸出。接著轉(zhuǎn)移到步驟1503,輸出“begin”。這是由于在明確句法范疇的有效范圍的同時(shí),提高詞典文件的可讀性。再在步驟1504中,將在代碼文件的郵政號(hào)碼欄中記入的地名表示的標(biāo)識(shí)符用括號(hào)括起來輸出。接著轉(zhuǎn)移到步驟1505,并定義將郵政號(hào)碼保持在名稱中的句法范疇。具體地說,將句法范疇的標(biāo)識(shí)符用“<>”括起來作為左邊,并插入符號(hào)“∷=”,在右邊從地名單詞定義文件檢索對(duì)應(yīng)于以前記入的代碼的句法范疇,按順序?qū)⒃摲懂牭拿Q排列起來,生成像行1601那樣的定義語句。如果存在字名,則在適當(dāng)?shù)牡孛硎镜念ご笞值姆懂犆Q的后面追加“()”,在“()”內(nèi)部追加字名的句法范疇名稱。在字名存在多個(gè)的場(chǎng)合,插入“|”后像行1602那樣進(jìn)行追加。
以上,說明有關(guān)向關(guān)于漢字的地名表示詞典的形式語言表現(xiàn)的變換,但有關(guān)片假名的地名表示詞典的生成用同樣的方法也能實(shí)現(xiàn)。
接下來說明有關(guān)圖1中的知識(shí)的相異表示追加處理104。通過事前準(zhǔn)備的地名表示追加用的知識(shí)105自動(dòng)被追加的表示是在以前說明的四種相異表示中的以下三種類型。
(1)字符型相異表示在地名單詞中的字符用法的差異等相異表示。例如,“之(no)”、“ノ(no)”、“の(no)”,或“ガ(ga)”、“ケ(ga)”、“が(ga)”等(2)省略型地名表示單詞·句法范疇被省略的相異表示。例如,縣名省略是可能的表示的差異(3)追加型相異表示單詞·句法范疇被追加的相異表示。例如,能夠追加字名的相異表示為了追加這些相異表示,采用圖17所示的程序。以圖13、圖14的地名表示為例說明它。作為知識(shí)的相異表示追加處理的第一個(gè)步驟1701將特定的字符串置換成作為已經(jīng)定義的知識(shí)被保持的句法范疇。在此處的所謂知識(shí)是用在本實(shí)施例中使用的文脈自由文法的句法范疇的定義形式來記述,當(dāng)在處理對(duì)象的地名單詞定義文件中存在定義語句右邊的字符串時(shí),將該字符串置換成左邊的句法范疇名。例如,由于圖18A的行1801的“大字(Ohoza)”的字符串位于表示町名·大字名的句法范疇的最前面,因此將它置換成“<V大字>”的定義完的句法范疇,變?yōu)閳D18B的行1804。由于行1802、行1803的“ケ(ga)”“の(no)”的字符也不是地名單詞的最前面、末尾,并且它們的兩側(cè)是漢字,因此分別置換成“<V ヶ>”“<V ノ>”的定義完的句法范疇,變?yōu)樾?805、行1806。有關(guān)知識(shí)的形式將在后面說明。作為知識(shí)的相異表示追加處理的第二個(gè)步驟1702,實(shí)行在地名單詞字符串的多處出現(xiàn)的字符串的句法范疇化。在此處生成字符型相異表示。例如,由于在愛知県以“尾張(Owari)”開始的地名很多,或者在京都市的地名將表示“西九條Nishikujyo)”和“一乗寺(Ichijyoji)”等廣大范圍的地名保持在接頭詞中的地名很多,因此將交給多個(gè)城鎮(zhèn)區(qū)域通用并像接頭詞那樣被使用的字符串進(jìn)行句法范疇化。由此,對(duì)于在多個(gè)地名中共同出現(xiàn)的字符串,可以使相異表示的追加處理一元化,同時(shí),由于在地名表示詞典中多處沒有保持相異表示的字符串,因此能夠減小詞典的冗余度。對(duì)于地名單詞定義文件,如果從定義語句的右邊的最前面取出二個(gè)字符或三個(gè)字符保持在存儲(chǔ)器中,并在多個(gè)定義語句中重復(fù),那么就定義此共同部分的字符串作為句法范疇,并用句法范疇名置換原來的字符串。由于在圖19中行1901和行1902的右邊的最前面三個(gè)字符“西九條(Nishikujyo)”共同存在,因此將它作為句法范疇生成行1903,并用句法范疇“<V西九條>”置換行1901、行1902的字符串(Nishikujyo)”,生成行1904、行1905。
作為知識(shí)的相異表示追加處理的第三個(gè)步驟1703,實(shí)行句法范疇的地名表示定義的追加。此處所追加的相異表示是省略型相異表示和追加型相異表示,主要是地名表示中的單詞,即句法范疇的排列的差異。例如,有或者都道府縣可能省略,或者町名·大字中的“大字(Ohaza)”可能省略,或者使上述的京都市的“西九條(Nishikujyo)”等廣大范圍的地名可能省略的例子。將它們作為后述形式的規(guī)則保持起來,并對(duì)地名表示定義文件和地名單詞定義文件實(shí)行定義語句的追加。例如,在對(duì)于圖20A的地名表示的定義追加從市町村名開始的表示的規(guī)則變成有效的場(chǎng)合,在“南區(qū)(Minami-ku)”和“尾張旭市(Owariasahi-shi)”的定義語句的下面分別附加“<P愛知県>”被省略的定義語句。其結(jié)果是圖20B,并且是行2001和行2002被追加的定義語句。接著,如果表示被定義,那么,對(duì)于左邊的句法范疇相同的定義語句使用or結(jié)合算符“|”將其作為一個(gè)定義語句。其結(jié)果變成圖20C所示的行2003和行2004。除指定開始位置外,某字符串的省略等也用同樣的程序反映在TPDL中。按照同樣的程序向地名單詞定義文件的相異表示的追加也是可能的。
以上是知識(shí)的相異表示追加處理。
接下來,說明有關(guān)用于圖1中的相異表示追加的地名表示追加用的知識(shí)105的知識(shí)表現(xiàn)。
在相異表示追加中使用的知識(shí)像上述那樣是以下二種類型。
D1由用于追加地名單詞定義中的字符型相異表示的、文脈自由文法的句法范疇的定義語句和用于啟動(dòng)從字符串向句法范疇的置換處理的條件組成的知識(shí)。
D2把用于生成省略型、追加型相異表示的、在地名表示定義語句中的句法范疇的排列作為條件,并由記入對(duì)句法范疇的置換、省略等、重新追加的定義語句內(nèi)容的項(xiàng)目組成的知識(shí)。
將有關(guān)上述D1的具體例子示于圖21中。該知識(shí)由句法范疇變換規(guī)則部分2101和句法范疇知識(shí)定義部分2102組成。句法范疇變換規(guī)則部分由四個(gè)項(xiàng)目組成,并由從左邊起表示句法范疇的類型的范疇類型字段2103、規(guī)定作為變換對(duì)象的字符串的排列的字符串條件字段2104、在句法范疇定義部分當(dāng)用“|”符號(hào)將被變換的句法范疇的定義語句的左邊隔開時(shí)將第幾個(gè)字符串作為變換條件的比較對(duì)象位置字段2105、以及在句法范疇定義部分指定被變換的句法范疇的定義語句的指針字段2106組成。句法范疇知識(shí)定義部分是在用文脈自由文法書寫的地名表示文件中定義對(duì)不依存地區(qū)的字符串的句法范疇的共同地名表示定義文件。以規(guī)則2107為例說明這樣被表現(xiàn)的知識(shí)的意義。
1.在地名單詞定義文件中的句法范疇的定義語句中,它的左邊的句法范疇的種類,即“<”后面的英文字母是寫在范疇類型字段中的“C、O、W、T、V”的哪一種,2.在以漢字結(jié)束的形式中,地名單詞定義文件中的句法范疇的定義語句的左邊如果滿足以下條件,即在定義指針字段指示的句法范疇指示的定義部分中的定義語句右邊所表現(xiàn)的字符中間寫入比較對(duì)象位置字段的第1個(gè)和第2個(gè)“ケ(ga)”“ケ(ga)”中的哪一個(gè)像字符串條件字段所示那樣以漢字開始,并在途中包含上述二個(gè)字符,那么,就用句法范疇“<Vケ>”置換在地名單詞定義文件中的句法范疇的定義語句右邊的上述字符。
此處,將說明句法范疇變換規(guī)則2101的各字段的記入方法。
在范疇類型字段中通過記入以下英文字母,限定適用該知識(shí)的地名單詞定義文件中的句法范疇的定義語句。
P都道府縣名的句法范疇C市區(qū)郡町村名的句法范疇O郡名、市名的句法范疇W區(qū)名、町村名的句法范疇T町名、大字名的句法范疇V字名、其它的句法范疇下面,記述在字符串條件字段中使用的符號(hào)。
X作為書寫在句法范疇知識(shí)定義部分中的置換對(duì)象的字符(串)K在記述字符串的條件時(shí)表示任意的漢字H在記述字符串的條件時(shí)表示任意的平假名T在記述字符串的條件時(shí)表示任意的片假名()用于明示書寫上述字符種類的范圍的符號(hào)+在它的前面重復(fù)一次以上所書寫的字符*在它的前面重復(fù)0次以上所書寫的字符^表示字符串的最前面$表示字符串的末尾在收納定義對(duì)于不依存地區(qū)所使用的字符串的句法范疇的定義語句的文件中準(zhǔn)備以下那樣的句法范疇。
<Vケ>∷=ヶ|ケ|が;<Vノ>∷=ノ|之| の;<V々>∷=ノ|々|の;<V壱>∷=壱|-|1;
<V式>∷=式|二|2;<V參>∷=參|三|3;<V通>∷=通[リ];<V大字>∷=大字;<V字>∷=字;<V入ル>∷=入([[ぃ]る]|[[イ]ル]);<V上ル>∷=上([[ガ]ル]|[[が]る]);<V下ル>∷=下([[ガ]ル]|[[が]る]);下面,在用于相異表示追加的知識(shí)中,說明有關(guān)D2。具體的例子示于圖22中。該知識(shí)由四個(gè)字段組成,它們是自左邊起記入了作為相異表示追加對(duì)象的地名表示的定義語句中句法范疇排列的范疇條件字段2201、對(duì)于滿足了范疇條件部分的條件的定義語句記入增加的變更種類的變更處理指定字段2202、表示在變更處理指定部分作為處理對(duì)象的句法范疇數(shù)目的范疇數(shù)目指定字段2203、在追加追加處理時(shí)示出新追加的句法范疇的名稱的追加范疇指定字段2204。以規(guī)則2205為例說明這樣被表現(xiàn)的知識(shí)的意義。
在地名表示定義文件中的句法范疇的定義語句中間,它的右邊如在范疇條件工具中所寫的那樣如果繼表示都道府縣名的句法范疇之后由表示市名的句法范疇構(gòu)成,那么像在變更處理指定字段、范疇數(shù)指定字段中所寫的那樣在都道府縣名和市名的句法范疇的二個(gè)句法范疇的變化中從“<V市內(nèi)>”這樣的句法范疇開始追加表示。
在此處說明各字段的記述方法。
在范疇條件字段中,通過以下字符、符號(hào)記述地名表示定義文件中的句法范疇的排列方法。
<>表示句法范疇名P 都道府縣名的句法范疇C 市區(qū)郡町村名的句法范疇O 郡名、市名的句法范疇
W區(qū)名、町村名的句法范疇T町名、大字名的句法范疇V字名、其它的句法范疇() 用于明示上述字符種類被書寫的范圍的符號(hào)+重復(fù)一個(gè)以上在它前面被書寫的字符*重復(fù)0個(gè)以上在它前面被書寫的字符^表示在定義語句中右邊的最前面$表示在定義語句右邊的末尾· 表示任意一個(gè)字符!否定繼續(xù)下一個(gè)的句法范疇在變更處理指定字段中記述以下二者中的一個(gè)處理。
SKIP追加容許在范疇條件部分所記入的省略句法范疇的表示REPLACE從表示的最前面追加把在范疇數(shù)目指定字段中所記入的數(shù)目的范疇置換成在追加范疇字段中所記入的范疇的表示。
為了生成用于讀取覆蓋在郵件上的地址的地名表示詞典,作為用于追加關(guān)于以下的地名表示的相異表示的知識(shí),準(zhǔn)備以下這樣的知識(shí)。
對(duì)都道府縣名的句法范疇可以省略對(duì)都道府縣名、市郡名的句法范疇可以省略都道府縣名、市郡名、還有區(qū)名、(繼郡之后)的町村名可以省略對(duì)于“市(Shi)”追加“市內(nèi)(Shi-nai)”的表示對(duì)于“(町Cho)”追加“町內(nèi)(Cho-nai)”的表示對(duì)于“村(Son)”追加“村內(nèi)(Son-nai)”的表示對(duì)于“區(qū)(Ku)”追加“區(qū)內(nèi)(Ku-nai)”的表示町名·大字名的最前面的“大字(Ohaza)”可以省略字名的最前面的“字(Aza)”可以省略以上是用于相異表示追加的知識(shí)的表現(xiàn)形式。
接著,說明有關(guān)在圖1中的依賴文脈相異表示追加處理106和追加·修正相異表示定義109。
在此處由人工向地名單詞定義文件和地名表示定義文件實(shí)行句法范疇的定義語句的追加。即通過手工作業(yè)書寫句法范疇的定義語句。但是,直接記述文脈自由文法形式的句法范疇,因作業(yè)人員的負(fù)擔(dān)重,要準(zhǔn)備支援該作業(yè)的I/F。
以下,對(duì)每個(gè)上述的相異表示的二個(gè)類型說明表示追加的方法。
首先說明對(duì)于地名相異表示的追加的程序。對(duì)于地名表示的相異表示的追加作業(yè)通過圖23A、B、C那樣的用戶界面實(shí)行。最初如果作業(yè)人員將作為編輯對(duì)象的區(qū)域標(biāo)識(shí)符的郵政號(hào)碼輸入郵政號(hào)碼輸入欄2301(參照?qǐng)D23A),那么以此為基礎(chǔ)從地名表示定義文件中檢索對(duì)應(yīng)的地名表示定義語句。例如,如果檢索“<4570012>∷=<C名古屋市南區(qū)><T笠寺><V本殿>的地名表示定義語句,那么,就取出在它的右邊所記入的句法范疇,再檢索將對(duì)應(yīng)市區(qū)郡町村名的句法范疇作為左邊的定義語句,并取出對(duì)應(yīng)都道府縣名、市郡名的句法范疇。將這些句法范疇的名稱分別顯示在都道府縣顯示欄2302、市郡顯示欄2303、區(qū)町村顯示欄2304、町名·大字顯示欄2305、字名顯示欄2306中。若使用多個(gè)句法范疇,就將它們?nèi)亢喜⒑箫@示(參照?qǐng)D23B)。接著,作業(yè)人員輸入應(yīng)追加的表示(參照?qǐng)D23C)。在追加省略了縣名、市名、區(qū)名、町名·大字的表示時(shí),將町名·大字顯示欄2306、區(qū)町村名顯示欄作為空白,在字名顯示欄2308中輸入”本殿(honden)”.然后,通過按壓追加按鈕2309,生成·追加指定的表示。
圖25中示出該表示的追加處理的流程。
首先,對(duì)于在步驟2501中使用圖23A、B、C那樣的界面追加的表示形成文脈自由文法的定義語句的形式。對(duì)于在圖24中對(duì)郵政號(hào)碼用4570012表示的地名表示追加的“本殿”的表示生成“<4570012>∷=<V本殿>”的句法范疇定義語句。對(duì)于地名表示詞典中的句法范疇的定義語句檢索其左邊與上述追加定義語句的左邊相同的語句(步驟2502)。檢索結(jié)果,如果存在適當(dāng)?shù)亩x語句,那么在步驟2503展開檢索結(jié)果的定義語句的左邊以便使各地名表示字符串進(jìn)行OR結(jié)合。就是說,將A∷=(B|C)D的定義語句變形為A∷=BD|CD。在步驟2504中,對(duì)于已變形的地名表示詞典中的定義語句,通過OR結(jié)合其左邊將追加定義語句合并。因此,在<4570012>∷=<C名古屋市南區(qū)><T笠寺><V本殿>;的地名表示知識(shí)中結(jié)合<4570012>∷=<V本殿>;生成<4570012>∷=<C名古屋市南區(qū)><T笠寺><V本殿>|<V本殿>;。
接著,在步驟2505中,實(shí)行定義表達(dá)式的最佳化,即削減使用的句法范疇名的數(shù)目。即,是將A∷=BD|CD;的定義表達(dá)式變形為A∷=(B|C)D;或者將A∷=BC|B;的定義表達(dá)式變形為A∷=B[C];的處理。因此得到<4570012>∷=<C名古屋市南區(qū)><T笠寺>[<V本殿>];。
另外,在步驟2506中,將已追加的定義語句<4570012>∷=<V本殿>;存儲(chǔ)到后述的、圖1中的追加·修正相異表示定義文件109中。在刪除相異表示的場(chǎng)合,變成圖26那樣處理的流程。
首先,在步驟2601中,對(duì)于使用圖24A、24B、24C那樣的界面選擇的表示形成文脈自由文法的定義語句的形式。如果想要?jiǎng)h除郵政號(hào)碼用4570012表示的地名的“本殿”的表示,那么就生成“<4570012>∷=<V本殿>”的句法范疇定義語句。對(duì)于地名詞典中的句法范疇的定義語句,檢索其左邊與上述追加定義語句的左邊相同的語句(步驟2602)。檢索的結(jié)果,如果存在適當(dāng)?shù)亩x語句,那么,在步驟2603中,展開檢索結(jié)果的定義語句的左邊以便各地名表示字符串進(jìn)行OR結(jié)合。就是說,將A∷=(B|C)D的定義語句變形為A∷=BD|CD。
在步驟2604中,通過從已變形的地名表示詞典中的定義語句的左邊被OR結(jié)合的要素刪除與追加定義語句的左邊相同的要素進(jìn)行處理。
因此,從<4570012>∷=<C名古屋市南區(qū)><T笠寺><V本殿>|<V本殿>;的地名表示知識(shí)中刪除<4570012>∷=<V本殿>;并生成<4570012>∷=<C名古屋市南區(qū)><T笠寺><V本殿>;的地名表示定義語句。
接下來,在步驟2505中,實(shí)行定義表達(dá)式的最佳化,即實(shí)行使用的句法范疇名的數(shù)目的刪除。即是將A∷=BD|CD;的定義表達(dá)式變形為A∷=(B|C)D;或者將A∷=BC|B;的定義表達(dá)式變?yōu)锳∷=B[C];
的處理。
另外,在步驟2506中,將已刪除的定義表達(dá)式<4570012>∷=<V本殿>;存儲(chǔ)到后述的、圖1中的追加·修正相異表示定義文件109中。
作為人工的相異表示追加的第二個(gè)例子在有關(guān)追加·修正的場(chǎng)合說明關(guān)于某個(gè)特定的地名單詞的相異表示。該作業(yè)通過圖24A、24B、24C那樣的用戶界面實(shí)行。與有關(guān)地名表示的相異表示追加時(shí)相同,如果作業(yè)人員將郵政號(hào)碼輸入到郵政號(hào)碼輸入欄2401中作為編輯對(duì)象的區(qū)域的標(biāo)識(shí)符(參照?qǐng)D24A),那么,以此為基礎(chǔ),從地名表示定義文件中檢索對(duì)應(yīng)的地名表示定義語句。接著,像圖24B那樣,在選擇了適當(dāng)層次的句法范疇名之后,啟動(dòng)單詞定義追加·修正界面。若啟動(dòng)單詞定義追加·修正界面,那么,就檢索將作為追加·修正的對(duì)象的句法范疇名變?yōu)樽筮叺牡孛麊卧~定義語句。在圖24C的地名單詞顯示·輸入欄2403中顯示在已檢索的單詞定義語句的右邊所記述的字符串。接著,如果作業(yè)人員將想要追加·修正的表示(字符串)追加到地名單詞顯示·輸入欄2404中,那么就將追加·修正的對(duì)象的句法范疇名變成左邊,并將使所追加的字符串變成右邊的地名單詞定義語句追加到地名單詞定義文件中。因此,進(jìn)行圖25所示的處理,生成“<O尾張旭市>∷=愛知旭市;”的定義語句,并以與上述知識(shí)的相異表示追加處理相同的程序追加到地名單詞定義文件中。這里所生成的句法范疇定義語句由追加·修正相異表示輸出處理108輸出,并存儲(chǔ)在圖1中的追加·修正相異表示定義中。即使在刪除單詞定義的場(chǎng)合也用圖26所示的方法(技巧)進(jìn)行。
將在上述依賴文脈追加處理中輸出的追加·修正相異表示定義的例子示于圖27中。
在這里,追加的定義語句、刪除的定義語句以與地名表示詞典相同的形式被存儲(chǔ)。但是,為了示出追加處理或刪除處理化,在行首使用注釋語句的形式寫入處理內(nèi)容的標(biāo)識(shí)符。處理內(nèi)容的標(biāo)識(shí)符是#ADD#追加#DEL#刪除的二種類型。
接著,說明有關(guān)圖1中的事例的相異表示追加處理111。在事例的相異表示追加處理中進(jìn)行的處理除了讀入追加·修正相異表示定義109,通過記入其中的處理內(nèi)容的標(biāo)識(shí)符變換追加和刪除的處理之外,與在依賴上下文關(guān)系的相異表示追加處理中進(jìn)行的相異表示的追加、刪除處理相同。通過事例的相異表示追加處理,能夠自動(dòng)地將過去用手工作業(yè)追加的相異表示追加到地名表示詞典中。
事例的相異表示追加處理的流程示于圖28中。
首先,在步驟2801中讀入在圖27中所示那樣的追加·修正相異表示定義109,并讀入在其行首的注釋內(nèi)部所記入的處理內(nèi)容的標(biāo)識(shí)符與其相連的表示的定義語句。在被寫入追加郵政號(hào)碼用4570012表示的地名表示的“本殿”表示那樣的追加·修正相異表示定義文件中的場(chǎng)合,對(duì)于地名表示詞典中的句法范疇的定義語句,檢索其左邊與“<4570012>∷=<V本殿>”的追加定義語句的左邊相同的語句(步驟2802)。檢索的結(jié)果,如果存在適當(dāng)?shù)亩x語句,那么,在步驟2803中,展開檢索結(jié)果的定義語句的左邊,以便使各地名表示字符串進(jìn)行OR結(jié)合。在步驟2804中,對(duì)于已變形的地名表示詞典中的定義語句,通過將其左邊進(jìn)行OR結(jié)合合并追加定義語句。因此,<4570012>∷=<C名古屋市南區(qū)><T笠寺><V本殿>|<V本殿>;的地名表示定義語句被生成。
其次,在步驟2805中,實(shí)行定義表達(dá)式的最佳化,即實(shí)行使用的句法范疇名的數(shù)目的削減。因此,得到<4570012)∷=<C名古屋市南區(qū)><T笠寺>[<V本殿>];。
經(jīng)過以上的處理,生成圖1中的地名核對(duì)用的地名表示詞典103。與以前所述的那樣,該地名表示詞典的形式也采用詞典源文件的形式。作為從用文脈自由文法所表現(xiàn)的地名表示詞典變換到圖形形式的詞典二進(jìn)制的形式的方法,可以使用例如生成相應(yīng)于在“自然語言處理入門”(近代科學(xué)社,ISBN4-7649-0143-9)第19-31頁中那樣的生成規(guī)則的過渡圖形的方法等。把從本實(shí)施例中使用的文脈自由文法表現(xiàn)的例子中所形成的圖形形式的地名表示詞典的一例示于圖29中。圖形形式的地名表示詞典是各邊對(duì)應(yīng)于部分字符串、各頂點(diǎn)對(duì)應(yīng)于部分字符串的邊界的有向圖。各邊的方向與字符串中的字符的順序一致。被寫成NULL的邊表示該處可以什么字符串也沒有。在圖中的右下邊包含線的圓表示地名字符串的開始位置。另外,在中央含有斜線的圓表示字符串的終止位置。在對(duì)應(yīng)字符串的終止的節(jié)點(diǎn)中存儲(chǔ)作為對(duì)在<數(shù)字>表示中指定的地名表示的標(biāo)識(shí)符的數(shù)字(在本實(shí)施例中為郵政號(hào)碼)。
關(guān)于英語范圍的地名表示的相異表示同樣也可以使用。例如,在“South 9th Street”中,如圖30所示那樣或者將“South”簡(jiǎn)寫成“S”,或者將其全部省略。關(guān)于“9th”有時(shí)也用英語表示為“9”。更有,關(guān)于“Street”或者簡(jiǎn)寫成“St”,或者有時(shí)全部省略。而且,相當(dāng)于“South”和“9th”部分語序有時(shí)也會(huì)改變。
若按照在本發(fā)明中表示上述的地名表示的文脈自由文法記述,就變成圖31。
圖32示出本實(shí)施例中的硬件的構(gòu)成。地名表示詞典生成裝置3001是把標(biāo)準(zhǔn)的地名表示被分割成每個(gè)單詞存儲(chǔ)的標(biāo)準(zhǔn)地名表示列表3002作為輸入、并輸出用文脈自由文法表現(xiàn)的地名表示詞典3003的裝置。該裝置內(nèi)部具備處理從外部輸入文件的輸入用的接口3004、保存各種文件的外部存儲(chǔ)裝置3005、運(yùn)算處理裝置3006、存儲(chǔ)器3007、處理向外部輸出結(jié)果的網(wǎng)絡(luò)接口3008、以及輸出用的接口3009,它們經(jīng)由總線3010被連接起來。
標(biāo)準(zhǔn)地名表示列表經(jīng)由輸入輸出裝置3004輸入到地名表示詞典生成裝置,存儲(chǔ)在外部存儲(chǔ)裝置3005中,變成標(biāo)準(zhǔn)地名表示列表文件3011,復(fù)制在存儲(chǔ)器3007中,變成標(biāo)準(zhǔn)地名表示30016。如果地名表示詞典生成處理被執(zhí)行,那么,用于存儲(chǔ)在外部存儲(chǔ)裝置中的地名表示詞典生成處理的程序文件3012、相異表示追加用的知識(shí)文件3013被裝入存儲(chǔ)器中,變成程序3014、相異表示追加用的知識(shí)3015。對(duì)于輸入用的接口或從外部存儲(chǔ)裝置裝入存儲(chǔ)器中的標(biāo)準(zhǔn)地名表示3016,運(yùn)算處理裝置按照本發(fā)明的形式在存儲(chǔ)器中生成地名表示詞典3017。
其結(jié)果作為地名表示詞典文件3021被寫入外部存儲(chǔ)裝置中,或者通過顯示器的輸出接口3009被輸出。通過程序3014被追加·修正的地名表示作為相異表示追加履歷文件3022被保存在外部存儲(chǔ)裝置中,在以后的地名表示詞典生成時(shí)被利用。
另外也可能通過從作為本實(shí)施例說明的詞典源文件形式變換成詞典二進(jìn)制形式的詞典形式變換裝置3018變換成詞典二進(jìn)制形式的地名表示詞典,并通過網(wǎng)絡(luò)3019將它裝入郵件分檢機(jī)3020,進(jìn)行地址讀取處理。
還有,本發(fā)明為說明方便起見,以日本的地名和住所為例進(jìn)行了說明,但是,本發(fā)明不限于日本的地名和住所、或用日語表示的地名和住所。
即使是各外國的地名和表示、或用英語及其它語言表示的地名和住所,用本發(fā)明實(shí)施也是可能的。通過隨時(shí)重新追加·變更不僅是上述的范疇的范疇,或進(jìn)行屬于這些范疇的單詞的追加·變更,也使本發(fā)明可能使用于外國的地名·住所、或者用外語表示的地名·住所。
如以上所述,依據(jù)本發(fā)明的實(shí)施例,從只寫入對(duì)于一個(gè)地區(qū)的標(biāo)準(zhǔn)地名表示的地名表示列表中,能夠盡可能自動(dòng)追加相異表示,并容易變成詞典完備率高的地名表示詞典。另外,即使對(duì)于不能自動(dòng)追加的相異表示通過提供用人工追加它的設(shè)備在成為生成地名表示詞典的對(duì)象的地區(qū)也能追加特有的相異表示,而且還能提高詞典完備率。另外,通過保存此處用人工追加作業(yè)的結(jié)果以便在以后的詞典生成作業(yè)時(shí)利用,就能夠抑制實(shí)行用人工追加作業(yè)的次數(shù),簡(jiǎn)化詞典生成作業(yè)。
權(quán)利要求
1.一種詞典生成裝置,具有從包含保持第一地名的地名表示列表(101)的地名表示詞典中輸入、輸出上述第一地名的接口裝置,包含保持與上述第一地名的表示有關(guān)并且包含表示不同的地名、字符不同的地名、能省略的地名、能追加的地名中的任何一個(gè)地名的相異表示信息的地名表示追加用的知識(shí)的相異表示詞典,以及輸入上述第一地名和在上述相異表示詞典中所包含的上述表示的信息、生成與上述第一地名表示不同的第二地名(103,圖7的表示)、并輸出該第二地名的相異表示地名生成裝置。
2.一種詞典生成裝置,具有包含保持第一地名的地名表示列表的地名表示詞典,包含保持與上述第一地名的表示有關(guān)、并且含有表示不同的地名、字符不同的地名、能省略的地名、能追加的地名中的任何一個(gè)地名的相異表示信息的地名表示追加用的知識(shí)的相異表示詞典,以及輸入上述第一地名和在上述相異表示詞典中所包含的上述相異表示信息、生成與上述第一地名表示不同的第二地名、并輸出該第二地名的相異表示地名生成裝置。
3.權(quán)利要求2記載的詞典生成裝置,其特征在于,上述相異表示地名生成裝置還是包含將上述第一地名變換成其它語言形式的形式語言表現(xiàn)變換裝置、并參照變換成該其它語言形式的第一地名(103)生成上述第二地名的相異表示地名生成裝置。
4.權(quán)利要求2記載的詞典生成裝置,其特征在于上述地名表示列表是分成多個(gè)句法范疇后保持上述第一地名的地名表示列表,上述相異表示地名生成裝置是參照上述多個(gè)句法范疇中任何一個(gè)生成上述第二地名的相異表示地名生成裝置。
5.權(quán)利要求4記載的詞典生成裝置,其特征在于上述地名表示列表是在各個(gè)被分成上述多個(gè)句法范疇的上述第一地名中附加代碼信息(201)后被保持的地名表示列表。
6.權(quán)利要求5記載的詞典生成裝置,其特征在于上述第二地名是改變被分成上述多個(gè)句法范疇的上述第一地名的、該多個(gè)句法范疇的排列方法所形成的地名。
7.一種詞典生成裝置,具有包含保持第一地名的地名表示列表的地名表示詞典,包含保持與上述第一地名的表示有關(guān),并且含有表示不同的地名、字符不同的地名、能省略的地名、能追加的地名中任何一個(gè)地名的相異表示信息的地名追加用的知識(shí)的相異表示詞典(105),輸入上述第一地名和在上述相異表示詞典中所包含的上述相異表示信息、生成與上述第一地名表示不同的第二地名、并輸出該第二地名的相異表示地名生成裝置(104),接收追加與上述第二地名表示不同的第三地名(107)的指定的接收裝置,以及根據(jù)上述指定追加并輸出上述第三地名的追加裝置(106)。
8.一種詞典生成裝置,其特征在于,具有,包含保持第一地名的地名表示列表的地名表示詞典,包含保持與上述第一地名的表示有關(guān),并且含有表示不同的地名、字符不同的地名、能省略的地名、能追加的地名中任何一個(gè)地名的相異表示信息的地名表示追加用的知識(shí)的相異表示詞典(105),輸入上述第一地名和在上述相異表示詞典中所包含的上述相異表示信息、生成與上述第一地名表示不同的第二地名、輸出該第二地名的相異表示地名生成裝置,接收追加與上述第二地名表示不同的第三地名的指定的接收裝置,根據(jù)上述指定追加并輸出上述第三地名的追加裝置(106),以及輸入上述第二地名和上述第三地名、保持上述第二地名和第三地名對(duì)的保存裝置(108),上述相異表示地名生成裝置包含參照上述保存裝置的裝置,并且是在該保存裝置中當(dāng)上述第二地名和上述第三地名對(duì)已被保存時(shí)包含參照該地名對(duì)從上述第一地名生成上述第三地名后輸出的裝置的相異表示地名生成裝置。
9.一種詞典生成方法,其中接口裝置從包含保持第一地名的地名表示列表的地名表示詞典中輸入該第一地名后輸出,相異表示地名生成裝置從包含保持與上述第一地名和該第一地名的表示有關(guān),并且含有表示不同的地名、字符不同的地名、能省略的地名、能追加的地名中任何一個(gè)地名的相異表示信息的地名表示追加用的知識(shí)的相異表示詞典中得到該相異表示的信息,生成與該第一地名表示不同的第二地名,并輸出該第二地名。
10.一種詞典生成方法,其中,相異表示地名生成裝置從包含保持第一地名的地名表示列表的地名表示詞典中輸入該第一地名,另外,還從包含保持與上述第一地名的表示有關(guān)、并且含有表示不同的地名、字符不同的地名、能省略的地名、能追加的地名中任何一個(gè)地名的相異表示信息的地名表示追加用的知識(shí)的相異表示詞典中輸入該相異表示信息,生成與上述第一地名表示不同的第二地名,并輸出該第二地名。
11.權(quán)利要求10記載的詞典生成方法,其中上述相異表示地名生成裝置還在形式語言表現(xiàn)變換裝置中將上述第一地名變換成其他的語言形式,并參照變換成該其它語言形式的第一地名生成上述第二地名。
全文摘要
本發(fā)明的地名表示詞典生成方法和裝置不是特別地實(shí)行對(duì)地名表示的相異表示的生成和追加,而是在盡可能地自動(dòng)地追加相異表示的同時(shí),第二次以后能自動(dòng)地實(shí)行不能自動(dòng)地追加的表示和不需要的表示的追加和刪除。通過用文脈自由文法表現(xiàn)地名表示,并通過具有將使地名表示的字符串和在文脈自由文法中的句法范疇對(duì)應(yīng)起來的知識(shí)、句法范疇和句法范疇的配置與其它的句法范疇對(duì)應(yīng)的知識(shí)做到能夠追加地名表示的相異表示。另外,通過用與記述地名表示詞典的形式相同的文脈自由文法只記述被追加或刪除的表示、并輸出到文件中,以便在這以后的地名表示詞典生成時(shí)能自動(dòng)地反映上述追加、刪除處理的變更。
文檔編號(hào)G06F15/18GK1296231SQ0013390
公開日2001年5月23日 申請(qǐng)日期2000年11月10日 優(yōu)先權(quán)日1999年11月12日
發(fā)明者池田尚司, 加藤厚志, 藤澤浩道, 古賀昌史, 古川直廣 申請(qǐng)人:株式會(huì)社日立制作所