專利名稱::邏輯結(jié)構(gòu)分析裝置、方法和計(jì)算機(jī)產(chǎn)品的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及包括紙質(zhì)表單(form)和電子表單在內(nèi)的表單上的字符串之間的邏輯結(jié)構(gòu)(關(guān)系)分析。
背景技術(shù):
:傳統(tǒng)上,為了從紙質(zhì)表單中提取數(shù)據(jù),使用了結(jié)構(gòu)化表單,即具有固定布局(layout))的表單。在從結(jié)構(gòu)化表單中提取數(shù)據(jù)時(shí),具有某種含義的字符(character)或字符串(characterstring)存在于某些區(qū)域中,并且定義這種字符、字符串和位置的用于布局的字段定義被生成。通過分析寫在有關(guān)區(qū)域中的這些字符和/或字符串來提取數(shù)據(jù)。但是,如果針對(duì)僅為幾個(gè)拷貝處理的表單進(jìn)行創(chuàng)建的話,那么創(chuàng)建對(duì)布局的字段定義的成本變得巨大;因此為這種表單手工輸入數(shù)據(jù),這轉(zhuǎn)而需要巨大的數(shù)據(jù)輸入成本。近來,即使在表格(table)中改變了標(biāo)題(heading)的順序,也可以識(shí)別數(shù)據(jù)位置,并且針對(duì)在表格被創(chuàng)建時(shí)同一列中的標(biāo)題被顛倒的情況,在日本專利申請(qǐng)?jiān)缙诠糔o.2005-275830中公開了一種數(shù)據(jù)提取方法。但是,傳統(tǒng)上,對(duì)于非結(jié)構(gòu)化布局的邏輯結(jié)構(gòu)分析或者是在標(biāo)題之間的關(guān)系是分級(jí)的(例如主標(biāo)題和副標(biāo)題之間的關(guān)系或者基于構(gòu)成層級(jí)的副標(biāo)題之間的等同關(guān)系)時(shí)提取數(shù)據(jù)的模式,或者是可應(yīng)用到具有定義標(biāo)題群組內(nèi)的非唯一順序的某些規(guī)則的線條和單元(cell)的表單的邏輯結(jié)構(gòu)分析模式。因此,傳統(tǒng)的處理不能應(yīng)用到下述表單是成問題的(1)通過多個(gè)標(biāo)題從中獲得數(shù)據(jù)的表單,但是不能判定該數(shù)據(jù)是否形成表格,(2)多次使用同一標(biāo)題的表單,每個(gè)標(biāo)題分別對(duì)應(yīng)于一段數(shù)據(jù),或者(3)具有這樣的結(jié)構(gòu)的表單標(biāo)題和相應(yīng)數(shù)據(jù)不相鄰,例如(標(biāo)題1)-(標(biāo)題2)-(與標(biāo)題l相對(duì)應(yīng)的數(shù)據(jù))-(與標(biāo)題2相對(duì)應(yīng)的數(shù)據(jù))。例如,日本專利申請(qǐng)?jiān)缙诠糔o.2005-275830中公開的技術(shù)沒有解決上述問題(1)和(3),因?yàn)槭窃谑褂帽砀竦那疤嵯率褂脝卧P(guān)系的。另外,如果不解決問題(2),那么當(dāng)多個(gè)數(shù)據(jù)項(xiàng)(item)對(duì)應(yīng)于同一標(biāo)題字符串時(shí),關(guān)系仍然是含糊的,從而導(dǎo)致邏輯結(jié)構(gòu)分析的準(zhǔn)確度降低。
發(fā)明內(nèi)容本發(fā)明的一個(gè)目的是至少解決傳統(tǒng)技術(shù)中的上述問題。根據(jù)本發(fā)明的一個(gè)方面的一種計(jì)算機(jī)可讀記錄介質(zhì)中存儲(chǔ)有邏輯結(jié)構(gòu)分析計(jì)算機(jī)程序,該邏輯結(jié)構(gòu)分析計(jì)算機(jī)程序使得計(jì)算機(jī)執(zhí)行從包括一個(gè)或多個(gè)標(biāo)題和一個(gè)或多個(gè)數(shù)據(jù)項(xiàng)的表單上的字符串中提取單位單詞候選;將每個(gè)所述單詞候選分類成針對(duì)所述標(biāo)題的標(biāo)題候選的群組和針對(duì)所述數(shù)據(jù)項(xiàng)的數(shù)據(jù)候選的群組,以基于所述單詞候選在所述表單上的位置,生成第一候選集合,每個(gè)所述第一候選集合包括所述標(biāo)題候選中的一個(gè)標(biāo)題候選和所述數(shù)據(jù)候選中可由所包括的標(biāo)題候選所標(biāo)識(shí)的一個(gè)數(shù)據(jù)候選;組合所述第一候選集合,以生成第二候選集合,使得每一個(gè)包括多個(gè)不同的標(biāo)題候選和所述數(shù)據(jù)候選中的一個(gè)數(shù)據(jù)候選;從所述第二候選集合中,針對(duì)每個(gè)所述數(shù)據(jù)項(xiàng),去除包括所述數(shù)據(jù)項(xiàng)中的一數(shù)據(jù)項(xiàng)和標(biāo)識(shí)該數(shù)據(jù)項(xiàng)的標(biāo)題的已確定集合,該去除是基于每個(gè)所述第二候選集合中包括的標(biāo)題候選和數(shù)據(jù)單詞候選在所述表單上的位置的;以及輸出所述己確定集合。根據(jù)本發(fā)明的另一方面的一種邏輯結(jié)構(gòu)分析裝置包括提取部件,該提取部件從包括一個(gè)或多個(gè)標(biāo)題和一個(gè)或多個(gè)數(shù)據(jù)項(xiàng)的表單上的字符串中提取單詞候選;第一生成部件,該第一生成部件將每個(gè)所述單詞候選分類成針對(duì)所述標(biāo)題的標(biāo)題候選的群組和針對(duì)所述數(shù)據(jù)項(xiàng)的數(shù)據(jù)候選的群組,以基于所述單詞候選在所述表單上的位置,生成第一候選集合,每個(gè)所述第一候選集合包括所述標(biāo)題候選中的一個(gè)標(biāo)題候選和所述數(shù)據(jù)候選中可由所包括的標(biāo)題候選所標(biāo)識(shí)的一個(gè)數(shù)據(jù)候選;第二生成部件,該第二生成部件組合所述第一候選集合,以生成第二候選集合,使得每一個(gè)包括多個(gè)不同的標(biāo)題候選和所述數(shù)據(jù)候選中的一個(gè)數(shù)據(jù)候選;去除部件,該去除部件針對(duì)每個(gè)所述數(shù)據(jù)項(xiàng),基于每個(gè)所述第二候選集合中包括的標(biāo)題候選和數(shù)據(jù)單詞候選在所述表單上的位置,從所述第二候選集合中去除包括所述數(shù)據(jù)項(xiàng)中的一數(shù)據(jù)項(xiàng)和標(biāo)識(shí)該數(shù)據(jù)項(xiàng)的標(biāo)題的已確定集合;以及輸出部件,該輸出部件輸出所述已確定集合。根據(jù)本發(fā)明的另一個(gè)方面的一種邏輯結(jié)構(gòu)分析方法包括從包括一個(gè)或多個(gè)標(biāo)題和一個(gè)或多個(gè)數(shù)據(jù)項(xiàng)的表單上的字符串中提取單位單詞候選;將每個(gè)所述單詞候選分類成針對(duì)所述標(biāo)題的標(biāo)題候選的群組和針對(duì)所述數(shù)據(jù)項(xiàng)的數(shù)據(jù)候選的群組,以基于所述單詞候選在所述表單上的位置,生成第一候選集合,每個(gè)所述第一候選集合包括所述標(biāo)題候選中的一個(gè)標(biāo)題候選和所述數(shù)據(jù)候選中可由所包括的標(biāo)題候選所標(biāo)識(shí)的一個(gè)數(shù)據(jù)候選;組合所述第一候選集合,以生成第二候選集合,使得每一個(gè)包括多個(gè)不同的標(biāo)題候選和所述數(shù)據(jù)候選中的一個(gè)數(shù)據(jù)候選;從所述第二候選集合中,針對(duì)每個(gè)所述數(shù)據(jù)項(xiàng),去除包括所述數(shù)據(jù)項(xiàng)中的一數(shù)據(jù)項(xiàng)和標(biāo)識(shí)該數(shù)據(jù)項(xiàng)的標(biāo)題的已確定集合,該去除是基于每個(gè)所述第二候選集合中包括的標(biāo)題候選和數(shù)據(jù)單詞候選在所述表單上的位置的;以及輸出所述已確定集合。當(dāng)結(jié)合附圖理解時(shí),將在以下對(duì)本發(fā)明的詳細(xì)描述中具體闡述或者可以從以下對(duì)本發(fā)明的詳細(xì)描述中清楚看到本發(fā)明的其他目的、特征和優(yōu)點(diǎn)。圖1A和1B是關(guān)于經(jīng)歷邏輯結(jié)構(gòu)分析的表單的示例的示意圖。圖2是表單的字符信息的示意圖3A至3D是共通邏輯結(jié)構(gòu)DB的存儲(chǔ)內(nèi)容的示意圖;圖4A至4C是從表單的單詞候選提取結(jié)果的示意圖;圖5是邏輯結(jié)構(gòu)分析裝置的功能配置的框圖;圖6是邏輯結(jié)構(gòu)分析處理的流程圖7A至7D是詳細(xì)示出兩片段集合候選的生成的示意圖;圖8是詳細(xì)示出一標(biāo)題/一數(shù)據(jù)片段集合候選生成處理(步驟S604)的流程圖;圖9A至9D是詳細(xì)示出(N+l)片段集合候選的生成的示意圖10是詳細(xì)示出多標(biāo)題/一數(shù)據(jù)片段集合候選生成處理(步驟S605)的流程圖11和12是詳細(xì)示出(N+l)片段集合候選生成處理的流程圖;圖13A至14C是詳細(xì)示出對(duì)(N+l)片段集合候選的已確定集合的去除的示意圖15是詳細(xì)示出已確定集合去除處理(步驟S606)的流程圖16是詳細(xì)示出圖13A至13D所示的前向處理的流程圖17是詳細(xì)示出(N+l)片段集合候選去除處理(步驟S1502或S1504)的流程圖18是詳細(xì)示出圖14A至14C所示的后向處理的流程圖19是詳細(xì)示出圖18所示的標(biāo)題邏輯元素比較處理(步驟S1806)的流程圖20A和20B是表單的其他示例的示意圖;圖21是從圖20A所示的表單獲得的兩片段集合候選的示意圖;圖22A至22C是從圖20A所示的表單獲得的(N+l)片段集合候選的示意圖23A和23B是從圖20B所示的表單獲得的兩片段集合候選的示意圖24是在同一標(biāo)題單詞候選多次存在時(shí)的標(biāo)題單詞候選評(píng)估技術(shù)的示意圖25是標(biāo)題單詞候選評(píng)估處理(步驟S607)的詳細(xì)流程圖;圖26是在同一標(biāo)題單詞候選多次存在時(shí)標(biāo)題單詞候選的另一種評(píng)估技術(shù)的示意圖27是詳細(xì)示出標(biāo)題單詞候選評(píng)估處理(步驟S607)的另一過程的流程圖28是表單的另一示例的示意圖29A和29B是三片段集合候選的組合的評(píng)估示例的示意圖;圖30是詳細(xì)示出數(shù)據(jù)單詞候選評(píng)估處理(步驟S608)的流程圖;圖31是詳細(xì)示出同時(shí)實(shí)現(xiàn)可能性檢查處理(步驟S3007)的流程圖32A是詳細(xì)示出距離方差計(jì)算處理(步驟S3013)的流程圖;圖32B是詳細(xì)示出目標(biāo)元素提取處理(步驟S3203)的流程圖;圖33是詳細(xì)示出最小方差選擇處理(步驟S3016)的流程圖;圖34A和34B是三片段集合候選的組合的另一評(píng)估示例的示意圖;圖35是詳細(xì)示出數(shù)據(jù)單詞候選評(píng)估處理(步驟S608)的另一過程的流程圖36是詳細(xì)示出圖35所示的矩形方差計(jì)算處理(步驟S3515)的流程圖;以及圖37是邏輯結(jié)構(gòu)分析裝置的硬件配置的示意圖。具體實(shí)施例方式參考附圖,下面詳細(xì)說明根據(jù)本發(fā)明的示例性實(shí)施例。根據(jù)該實(shí)施例的邏輯結(jié)構(gòu)分析是這樣一種技術(shù),該技術(shù)讀取紙質(zhì)介質(zhì)或圖像數(shù)據(jù)的表單、分析表單上的字符信息和布局信息(如果諸如表格之類的布局存在的話),并且分析字符信息的邏輯結(jié)構(gòu)。這里所使用的邏輯結(jié)構(gòu)是指示出表單中的標(biāo)題和該標(biāo)題所標(biāo)識(shí)的數(shù)據(jù)之間的關(guān)聯(lián)的邏輯結(jié)構(gòu)。在本說明書中,如果簡單地使用術(shù)語"數(shù)據(jù)",則表明任意的數(shù)值(例如貨幣金額和數(shù)值量),即通配符。圖1A和1B是關(guān)于經(jīng)歷邏輯結(jié)構(gòu)分析的表單的示例的示意圖。如圖1A所示,表單IOO具有矩陣狀邏輯結(jié)構(gòu),其中字符串被寫在單元中。作為標(biāo)題的字符串包括項(xiàng)目(item),例如旅費(fèi)(travelexpense)、設(shè)備費(fèi)(equipmentexpense)禾口消耗品費(fèi)(consumablesexpense),以及年度(year),例如17年度(17thyear)、18年度(18thyeaer)和19年度(18thyear)。這些被統(tǒng)稱為字符信息。寫在給定項(xiàng)目和給定年度的交叉區(qū)域中的值被識(shí)別為該年度該項(xiàng)目的值。例如,第n年度的旅費(fèi)的數(shù)據(jù)為100,000(日元)。圖1B是圖1A所示的表單IOO的布局信息。布局信息是諸如排除了字符信息的框架和線條之類的信息。單元被分別指派以標(biāo)識(shí)符(單元號(hào)碼)C1至C16。因此,如果通過此實(shí)施例來分析邏輯結(jié)構(gòu),則可通過基于此布局信息創(chuàng)建電子數(shù)據(jù)表(spreadsheet)并將有關(guān)字符信息分別寫入電子數(shù)據(jù)表的每個(gè)單元中,來將表單ioo轉(zhuǎn)換為包括其字符信息的電子數(shù)據(jù)表。圖2是表單100的字符信息的示意圖。讀表單100,并且獲得字符信息,字符信息包括字符號(hào)碼、字符代碼、坐標(biāo)和單元號(hào)碼。字符號(hào)碼是從"1"開始按升序分別指派給每個(gè)字符代碼的唯一號(hào)碼。字符代碼是從表單100讀取的字符。即使不止一次地讀取了同一字符代碼,每次也指派一個(gè)不同的字符號(hào)碼。坐標(biāo)標(biāo)識(shí)字符代碼在表單100上的位置。字符代碼的位置是由圍繞字符代碼的矩形相對(duì)于表單上被定義為起始點(diǎn)的任意位置的左上坐標(biāo)和右下坐標(biāo)來標(biāo)識(shí)的。其中寫有字符代碼的單元由單元號(hào)碼來標(biāo)識(shí)。圖3A至3D是共通邏輯結(jié)構(gòu)DB的存儲(chǔ)內(nèi)容的示意圖。圖3A和3B是與標(biāo)題項(xiàng)(headingitem)相關(guān)的邏輯元素(以下稱之為"標(biāo)題邏輯元素")的表格,圖3C和3D是與數(shù)據(jù)相關(guān)的邏輯元素(以下稱之為"數(shù)據(jù)邏輯元素")的表格。圖3A示出了"邏輯元素群組G1:項(xiàng)目"的邏輯元素表格。標(biāo)題邏輯元素表格301包括元素號(hào)碼、代表性單詞和單詞。元素號(hào)碼是指派給代表性單詞的唯一號(hào)碼。具有元素號(hào)碼Eij的邏輯元素在下面將被稱為邏輯元素Eij。代表性單詞是指示項(xiàng)目的典型單詞。單詞是指示與代表性單詞相等同或是代表性單詞的同義詞的單詞的字符串。以邏輯元素Ell為例,代表性單詞是辭語"旅費(fèi)",其單詞是包括"旅費(fèi)"、"出差費(fèi)(businesstripexpense)"和"出差旅費(fèi)(businesstravelexpense)"在內(nèi)的辭語。由于以這種方式提供了等同的單詞和同義詞,因此可以以多種形式來標(biāo)識(shí)類似的標(biāo)題。圖3B示出了"邏輯元素群組G2:年度"的邏輯元素表格。與標(biāo)題邏輯元素表格301的情況一樣,該標(biāo)題邏輯元素表格302也包括元素號(hào)碼、代表性單詞和單詞。以邏輯元素E21為例,代表性單詞是辭語"17年度",其單詞是包括"17年度"、"17年(year17)"、"2005年度(2005thyear)"和"2005年(year2005)"在內(nèi)的辭語。圖3C示出了"邏輯元素群組G3:數(shù)據(jù)"的邏輯元素表格。該數(shù)據(jù)邏輯元素表格303除了存儲(chǔ)有圖3A和3B所示的元素號(hào)碼、代表性單詞和單詞之外,還存儲(chǔ)了與其他群組Gl和G2的關(guān)系。由于數(shù)據(jù)是由兩個(gè)標(biāo)題(項(xiàng)目和年度)標(biāo)識(shí)的值,因此代表性單詞是鏈接"邏輯元素群組Gl:項(xiàng)目"的代表性單詞和"邏輯元素群組G2:年度"的代表性單詞的字符串。以元素號(hào)碼E31為例,代表性單詞是鏈接"旅費(fèi)"和"17年度"的辭語"旅費(fèi)17年度"。由于任意的數(shù)值被寫在表單100上,因此單詞由*(通配符)表示。但是,即使在通配符的情況下,與該通配符相關(guān)的等同單詞和同義詞也被存儲(chǔ),例如單獨(dú)一個(gè)數(shù)值;數(shù)值和(一個(gè)或多個(gè))逗號(hào);數(shù)值和貨幣符號(hào)(例如Y、日元、$、美元,等等);以及數(shù)值、(一個(gè)或多個(gè))逗號(hào)和貨幣符號(hào)。對(duì)于與其他群組Gl和G2的關(guān)系,相應(yīng)標(biāo)題邏輯元素計(jì)數(shù)和相應(yīng)標(biāo)題邏輯元素的元素號(hào)碼被存儲(chǔ)。相應(yīng)標(biāo)題邏輯元素是與標(biāo)識(shí)數(shù)據(jù)的標(biāo)題項(xiàng)相關(guān)的邏輯元素,并且相應(yīng)標(biāo)題邏輯元素計(jì)數(shù)是其數(shù)目。以元素號(hào)碼E31為例,可以知道,與代表性單詞"17年度"相關(guān)的數(shù)據(jù)是由兩個(gè)相應(yīng)標(biāo)題邏輯元素Ell(代表性單詞"旅費(fèi)")和E21(代表性單詞"17年度")來標(biāo)識(shí)的。由于項(xiàng)目的邏輯元素計(jì)數(shù)為三個(gè)(E11至E13),并且年度的邏輯元素計(jì)數(shù)也是三個(gè)(E21至E23),因此數(shù)據(jù)的邏輯元素計(jì)數(shù)是三乘以三,即九個(gè)(E31至E39)。圖3D示出了與圖3C所示的數(shù)據(jù)相關(guān)的邏輯元素表格303的另一示例。在圖3D所示的邏輯元素表格304中,邏輯元素(元素號(hào)碼、代表性單詞和單詞)與邏輯元素表格303相同。另一方面,在邏輯元素表格304中,與其他群組的關(guān)系是基于相應(yīng)邏輯元素群組來表示的,而不是像邏輯元素表格303中那樣基于相應(yīng)標(biāo)題邏輯元素來表示的。在圖3D的情況下,圖3C所示的邏輯元素表格303是參考圖3A和3B的邏輯元素表格生成的。以元素號(hào)碼E31為例,由于相應(yīng)的邏輯元素群組是Gl和G2,并且代表性單詞是鏈接"旅費(fèi)"和"17年度"的"旅費(fèi)17年度",因此可以從相應(yīng)的邏輯元素群組Gl的邏輯元素表格301中識(shí)別出具有代表性單詞"旅費(fèi)"的元素號(hào)碼Ell,并且可以從相應(yīng)的邏輯元素群組G2的邏輯元素表格302中識(shí)別出具有代表性單詞"17年度"的元素號(hào)碼E21。圖4A至4C是從圖1A所示的表單100的單詞候選(wordcandidate)提取結(jié)果的示意圖。圖4A是與"邏輯元素群組G1:項(xiàng)目"相關(guān)的單詞候選提取結(jié)果401。圖4B是與"邏輯元素群組G2:年度"相關(guān)的單詞候選提取結(jié)果402。圖4C是與"邏輯元素群組G3:數(shù)據(jù)"相關(guān)的單詞候選提取結(jié)果403。如圖4A至4C所示,對(duì)于每個(gè)元素號(hào)碼及其代表性單詞,單詞候選提取結(jié)果401至403包括單詞候選、字符計(jì)數(shù)和字符號(hào)碼。單詞候選是邏輯元素表格301到304中包括的具有與圖2所示的字符代碼相匹配的字符代碼的單詞。字符計(jì)數(shù)分別指示出單詞候選中的字符的數(shù)目,并且字符號(hào)碼是與形成單詞候選的字符代碼相對(duì)應(yīng)的字符號(hào)碼。在圖4A至4C中,邏輯元素Eij的單詞候選將被描述為Wdj-k。在此情況下,k表示單詞候選的號(hào)碼。從由元素號(hào)碼標(biāo)識(shí)的單詞中,匹配單詞被選擇為單詞候選。以圖4A所示的與"邏輯元素群組Gl:項(xiàng)目"相關(guān)的單詞提取結(jié)果為例,在元素號(hào)碼Ell的單詞中,"旅費(fèi)"與圖1A所示的項(xiàng)目中的"旅費(fèi)"相匹配。由于圖1A所示的項(xiàng)目中的"旅費(fèi)"被寫在布局信息中的單元C5中,因此單元C5被用作從圖2所示的字符信息中獲得字符計(jì)數(shù)(=2)和字符號(hào)碼(15和16)的線索。標(biāo)題邏輯元素的單詞候選被稱為標(biāo)題單詞候選,數(shù)據(jù)邏輯元素的單詞候選被稱為數(shù)據(jù)單詞候選。圖5是邏輯結(jié)構(gòu)分析裝置500的功能配置的框圖。如圖5所示,邏輯結(jié)構(gòu)分析裝置500包括提取部件(unit)501、檢測(cè)部件502、第一生成部件503、第二生成部件504、去除部件505、標(biāo)題單詞候選評(píng)估部件506、數(shù)據(jù)單詞候選評(píng)估部件507和輸出部件508。部件501至508的功能可由執(zhí)行與之相關(guān)并被存儲(chǔ)在邏輯結(jié)構(gòu)分析裝置500的存儲(chǔ)部件(HD或存儲(chǔ)器)中的程序的CPU來實(shí)現(xiàn)。這些功能可通過輸入/輸出I/F來實(shí)現(xiàn)。從部件501至508輸出的數(shù)據(jù)被存儲(chǔ)在存儲(chǔ)部件中。假定圖5的箭頭所指示的連接目的地的功能是通過從存儲(chǔ)部件讀取從連接源部件輸出的數(shù)據(jù)并通過由CPU執(zhí)行有關(guān)程序,從而來實(shí)現(xiàn)的。共通邏輯結(jié)構(gòu)DB被包括在邏輯結(jié)構(gòu)分析裝置500中或者能夠與邏輯結(jié)構(gòu)分析裝置500通信的外部服務(wù)器中,并且其中存儲(chǔ)了圖3A至3C(或圖3D)所示的邏輯元素表格301至303。提取部件501從寫在表單100上的字符信息中提取有關(guān)單詞來作為單詞候選。具體而言,圖4A至4C所示的單詞候選提取結(jié)果是通過參考圖2所示的讀出結(jié)果和通用邏輯結(jié)構(gòu)DB510(邏輯元素表格301至304)來輸出的。檢測(cè)部件502檢測(cè)標(biāo)題邏輯元素群組計(jì)數(shù),這是構(gòu)成表單100的標(biāo)題項(xiàng)的類型的數(shù)目。具體而言,例如,由于"邏輯元素群組Gl:項(xiàng)目"和"邏輯元素群組G2:年度"被用作用于提取圖1A所示的表單100上的單詞候選的標(biāo)題邏輯元素,因此標(biāo)題邏輯元素群組計(jì)數(shù)Nmax=2被檢測(cè)到。第一生成部件503生成候選,該候選是從表單100選擇出來的一個(gè)標(biāo)題項(xiàng)和由該標(biāo)題項(xiàng)標(biāo)識(shí)的一段數(shù)據(jù)(onepieceofdata)的組合(一標(biāo)題/一數(shù)據(jù)片段集合(one-heading/one-data-pieceset),以下簡稱為"兩片段集合"(two-pieceset))。第二生成部件504具有生成下述候選的功能該候選是從表單IOO選擇出來的N個(gè)標(biāo)題項(xiàng)(其中N為2《N《Nmax)和由這些標(biāo)題項(xiàng)標(biāo)識(shí)的一段數(shù)據(jù)的組合(多標(biāo)題/一數(shù)據(jù)片段集合(multi-heading/one-data-pieceset),以下簡稱為"(N+l)片段集合"((N+l)-pieceset))。如果只有一段數(shù)據(jù)被確定為對(duì)應(yīng)于標(biāo)題單詞候選的相同組合,則去除部件505從(N+l)片段集合候選中確定并輸出作為與數(shù)據(jù)相對(duì)應(yīng)的標(biāo)題的標(biāo)題單詞候選。如果只存在具有數(shù)據(jù)邏輯元素的一個(gè)數(shù)據(jù)單詞候選的一個(gè)(N+l)片段集合候選,則去除部件505確定并輸出標(biāo)題單詞候選。去除部件505還遞歸地執(zhí)行去除這些候選并檢査是否存在可確定的(N+l)片段集合候選的處理。至于標(biāo)題單詞候選評(píng)估部件506的功能,如果因?yàn)閷?duì)于一數(shù)據(jù)邏輯元素存在多個(gè)數(shù)據(jù)單詞候選而去除部件505無法識(shí)別僅一個(gè)(N+l)片段集合,則僅從具有帶相同數(shù)據(jù)單詞候選的數(shù)據(jù)邏輯元素的(N+l)片段集合候選中選擇給出不同位置處的標(biāo)題單詞候選的標(biāo)題邏輯元素,并且基于標(biāo)題單詞候選和數(shù)據(jù)單詞候選之間的位置關(guān)系來評(píng)估(N+l)片段的組合。至于數(shù)據(jù)單詞候選評(píng)估部件507的功能,如果在對(duì)于一數(shù)據(jù)邏輯元素存在多個(gè)數(shù)據(jù)單詞候選而去除部件505無法識(shí)別僅一個(gè)(N+l)片段集合,則基于其位置關(guān)系,針對(duì)具有由相同標(biāo)題單詞候選和不同數(shù)據(jù)單詞候選構(gòu)成的組合的(N+l)片段集合候選以及均具有相同數(shù)據(jù)單詞候選的不同邏輯元素的標(biāo)題單詞候選的組合,來評(píng)估(N+l)片段的組合。輸出部件508輸出邏輯結(jié)構(gòu)分析的結(jié)果。輸出格式可被顯示在顯示器上,通過打印機(jī)打印輸出,發(fā)送到外部計(jì)算機(jī)以及存儲(chǔ)到內(nèi)部存儲(chǔ)部件中。在服務(wù)器/客戶端配置的情況下,邏輯結(jié)構(gòu)分析裝置500是服務(wù)器,因此向客戶端發(fā)送邏輯結(jié)構(gòu)分析結(jié)果,并且邏輯結(jié)構(gòu)分析結(jié)果被顯示在接收方客戶端的顯示器上。圖6是邏輯結(jié)構(gòu)分析過程的流程圖。如圖6所示,表單100被讀取(步驟S60I),并且被解構(gòu)為字符信息(見圖2)和布局信息101,并且提取部件501獲取如圖4A至4C所示的單詞候選提取結(jié)果(步驟S602)。檢測(cè)部件502隨后檢測(cè)表單100的標(biāo)題邏輯元素計(jì)數(shù)Nmax(步驟S603)。第一生成部件503執(zhí)行一標(biāo)題/一數(shù)據(jù)片段集合候選生成處理(步驟S604);第二生成部件504執(zhí)行多標(biāo)題/一數(shù)據(jù)片段集合候選生成處理(處理S605);去除部件505執(zhí)行已確定集合去除處理(步驟S606);標(biāo)題單詞候選評(píng)估部件506執(zhí)行標(biāo)題單詞候選評(píng)估處理(步驟S607);并且數(shù)據(jù)單詞候選評(píng)估部件507執(zhí)行數(shù)據(jù)單詞候選評(píng)估處理(步驟S608)。標(biāo)題單詞候選評(píng)估處理(步驟S607)和數(shù)據(jù)單詞候選評(píng)估處理(步驟S608)是根據(jù)需要被執(zhí)行的。最后,輸出部件508輸出步驟S606至S608的處理結(jié)果(步驟S609)。以下針對(duì)第一生成部件503、第二生成部件504、去除部件505、標(biāo)題單詞候選評(píng)估部件506和數(shù)據(jù)單詞候選評(píng)估部件507來描述細(xì)節(jié)。圖7A至7D是詳細(xì)示出兩片段集合候選的生成的示意圖。兩片段集合候選是給定標(biāo)題項(xiàng)和能夠由該標(biāo)題項(xiàng)標(biāo)識(shí)的數(shù)據(jù)的組合。表單100的標(biāo)題項(xiàng)與位于下側(cè)、右側(cè)和右下側(cè)的數(shù)據(jù)相關(guān)。在本說明書中,標(biāo)題項(xiàng)的下側(cè)、右側(cè)或右下側(cè)的位置被稱為指定區(qū)域。因此,對(duì)于每個(gè)標(biāo)題項(xiàng),指定區(qū)域是不同的。標(biāo)題項(xiàng)和位于其指定區(qū)域中的數(shù)據(jù)構(gòu)成兩片段集合候選。在圖7A至7D中,粗線橢圓指示所選擇的標(biāo)題項(xiàng),細(xì)線橢圓指示能夠由所選擇的標(biāo)題項(xiàng)標(biāo)識(shí)的數(shù)據(jù)。鏈接粗線橢圓和細(xì)線橢圓的線段指示所形成的組合。粗線橢圓和細(xì)線橢圓的組合是兩片段集合候選。圖7A示出了當(dāng)"邏輯元素群組G1:項(xiàng)目"的元素號(hào)碼E11的標(biāo)題單詞候選"旅費(fèi)"被選擇時(shí)的兩片段集合候選。由于"旅費(fèi)"和邏輯元素群組G3的數(shù)據(jù)單詞候選的位置關(guān)系,獲取了九個(gè)兩片段集合候選。雖然單詞候選"17年度"至"19年度"被包括在不同的群組G2中,但是這些候選是標(biāo)題項(xiàng),而沒有資格用于兩片段集合候選。圖7B示出了當(dāng)"邏輯元素群組G1:項(xiàng)目"的元素號(hào)碼E13的標(biāo)題單詞候選"消耗品費(fèi)"被選擇時(shí)的兩片段集合候選。由于"消耗品費(fèi)"和邏輯元素群組G3的數(shù)據(jù)單詞候選的位置關(guān)系,獲取了三個(gè)兩片段集合候選。其他數(shù)據(jù)位于相對(duì)于"雜費(fèi)"的位置的右上側(cè),而沒有資格形成兩片段集合候選。圖7C示出了當(dāng)"邏輯元素群組G2:年度"的元素號(hào)碼E21的標(biāo)題單詞候選"17年度"被選擇時(shí)的兩片段集合候選。由于"17年度"和邏輯元素群組G3的數(shù)據(jù)單詞候選的位置關(guān)系,獲取了九個(gè)兩片段集合候選。圖7D示出了當(dāng)"邏輯元素群組G2:年度"的元素號(hào)碼E23的標(biāo)題單詞候選"19年度"被選擇時(shí)的兩片段集合候選。由于"19年度"和邏輯元素群組G3的數(shù)據(jù)單詞候選的位置關(guān)系,獲取了三個(gè)兩片段集合候選。圖8是詳細(xì)示出一標(biāo)題/一數(shù)據(jù)片段集合候選生成處理(步驟S604)的流程圖。首先,兩片段集合候選計(jì)數(shù)n被設(shè)置為n=1(步驟S801);邏輯元素群組Gi的號(hào)碼i被設(shè)置為i二1(步驟S802);并且邏輯元素Eij的號(hào)碼j被設(shè)置為j:l(步驟S803)。然后判定邏輯元素Eij是否是數(shù)據(jù)的邏輯元素(步驟S804)。如果元素不是數(shù)據(jù)的邏輯元素(步驟S804:否),貝Uj被遞增(步驟S805),并且過程返回到步驟S804。另一方面,如果元素是數(shù)據(jù)的邏輯元素(步驟S805:是),則邏輯元素群組Gi的號(hào)碼ii(由G(ii)表示,區(qū)別于Gi)被設(shè)置為ii=1(步驟S806),并且標(biāo)題邏輯元素群組G(ii)被讀取(步驟5807)。例如,在ii二l的情況下,在圖4A至4C所示的單詞候選提取結(jié)果中,標(biāo)題邏輯元素群組G1(圖4A所示的邏輯元素群組G1)被讀取。標(biāo)題邏輯元素Eij(由E(ii,j)表示,區(qū)別于Eij)隨后被讀取(步驟5808)。例如,圖4A所示的邏輯元素群組Gl被讀取作為標(biāo)題邏輯元素群組G(ii),并且由于ii=l且j=1,因此E(ii,j)被限定,并且標(biāo)題邏輯元素Ell被從邏輯元素群組1中讀取,以作為E(ii,j)。在步驟S804識(shí)別的數(shù)據(jù)邏輯元素Eij的單詞候選號(hào)碼k隨后被設(shè)置為k=1(步驟S809),并且在步驟S808讀取的標(biāo)題邏輯元素E(i,j)的單詞候選號(hào)碼k(由kk表示,區(qū)別于步驟S809的k)隨后被設(shè)置為kk二l(步驟S810)。判定在關(guān)于標(biāo)題單詞候選We(ii,j-kk)的指定區(qū)域中是否存在數(shù)據(jù)單詞候選Weij-k(步驟S811)。在指定區(qū)域中是否存在候選可由圖2所示的單元號(hào)碼和坐標(biāo)來標(biāo)識(shí)。如果在指定區(qū)域中存在候選(步驟S811:是),則標(biāo)題單詞候選We(ii,j-kk)和數(shù)據(jù)單詞候選Weij-k的組合被存儲(chǔ)以作為第n個(gè)兩片段集合(步驟S812)。在遞增n之后(步驟S811),過程去到步驟S814。另一方面,如果在指定區(qū)域中不存在候選(步驟S811:否),則過程去到步驟S814。在步驟S814,標(biāo)題邏輯元素E(ii,j)的單詞候選號(hào)碼kk被遞增。然后判定是否滿足kk《KK(步驟S815)。在此情況下,KK表示標(biāo)題邏輯元素E(ii,j)的單詞候選的總數(shù)。如果滿足kk《KK(步驟S815:是),則過程去到步驟S811,以判定在關(guān)于遞增后的標(biāo)題單詞候選We(ii,j-kk)的指定區(qū)域中是否存在數(shù)據(jù)單詞候選Weij-k。另一方面,如果不滿足kk《KK(步驟S815:否),則遞增數(shù)據(jù)邏輯元素Eij的單詞候選號(hào)碼k(步驟S816),并且判定是否滿足k《K(步驟S817)。在此情況下,K表示數(shù)據(jù)邏輯元素Eij的單詞候選的總數(shù)。如果滿足k《K(步驟S817:是),則過程去到步驟S810,以判定在關(guān)于標(biāo)題單詞候選We(ii,j-kk)的指定區(qū)域中是否存在遞增后的數(shù)據(jù)單詞候選Weij-k(步驟S810和S811)。另一方面,如果不滿足k《K(步驟S817:否),則遞增標(biāo)題邏輯元素群組G(ii)的號(hào)碼ii(步驟S818),并且判定是否滿足ii《II(步驟S819)。在此情況下,II表示標(biāo)題邏輯元素群組G(ii)的總數(shù)。如果滿足ii<II(步驟S819:是),則過程去到步驟S807,以讀取遞增后的標(biāo)題邏輯元素群組G(ii)。如果不滿足ii《11(步驟S819:否),則遞增其他標(biāo)題邏輯元素的元素號(hào)碼j(步驟S820),并且判定是否滿足j《J(步驟S821)。在此情況下,J表示其他邏輯元素的總數(shù)。如果滿足j《J(步驟S821:是),則過程去到步驟S804,以判定遞增后的邏輯元素Eij是否是數(shù)據(jù)邏輯元素。另一方面,如果不滿足j《J(步驟S821:否),則遞增邏輯元素群組號(hào)碼i(步驟S822),并且判定是否滿足i《I(步驟S823)。在此情況下,I表示邏輯元素群組Gi的總數(shù)。如果滿足i《I(步驟S823:是),則過程去到步驟S823以判定屬于遞增后的邏輯元素群組Gi的邏輯元素Eij是否是數(shù)據(jù)邏輯元素(步驟S804)。如果不滿足i《I(步驟S823:否),則第一生成部件503的處理序列被終止,并且過程去到步驟S605。結(jié)果,圖7A至7D所示的兩片段集合候選被自動(dòng)生成。圖9A至9D是詳細(xì)示出(N+l)片段集合候選的生成的示意圖。(N+l)片段集合候選是各種標(biāo)題項(xiàng)和能夠由這些標(biāo)題項(xiàng)標(biāo)識(shí)的一段數(shù)據(jù)的組合。表單100的標(biāo)題項(xiàng)與位于下側(cè)、右側(cè)和右下側(cè)的數(shù)據(jù)相關(guān)。在本說明書中,各種標(biāo)題項(xiàng)的下側(cè)、右側(cè)或右下側(cè)的交疊位置被稱為指定區(qū)域。因此,對(duì)于各種標(biāo)題項(xiàng)的每個(gè)組合,指定區(qū)域是不同的。各種標(biāo)題項(xiàng)的組合和位于其指定區(qū)域中的數(shù)據(jù)構(gòu)成(N+l)片段集合候選。參考圖7A至7D,描述了通過使用N=2,即通過對(duì)標(biāo)題項(xiàng)使用兩個(gè)項(xiàng)(項(xiàng)目和年度),而獲取的三片段集合候選。在圖9A至9D中,粗線橢圓指示所選擇的標(biāo)題項(xiàng),細(xì)線橢圓指示能夠由所選擇的兩個(gè)標(biāo)題項(xiàng)標(biāo)識(shí)的數(shù)據(jù)。鏈接粗線橢圓和細(xì)線橢圓的線段指示所形成的組合。兩個(gè)粗線橢圓和一個(gè)細(xì)線橢圓的組合是三片段集合候選。圖9A示出了當(dāng)"邏輯元素群組G1:項(xiàng)目"的元素號(hào)碼E13的標(biāo)題單詞候選"消耗品費(fèi)"被選擇時(shí)的兩片段集合候選。由于"消耗品費(fèi)"和邏輯元素群組G3的數(shù)據(jù)單詞候選的位置關(guān)系,獲取了三個(gè)兩片段集合候選。其他數(shù)據(jù)位于相對(duì)于"消耗品費(fèi)"的位置的右上側(cè),而沒有資格形成兩片段集合候選。圖9B示出了當(dāng)"邏輯元素群組G2:年度"的元素號(hào)碼E23的標(biāo)題單詞候選"19年度"被選擇時(shí)的兩片段集合候選。由于"19年度"和邏輯元素群組G3的數(shù)據(jù)單詞候選的位置關(guān)系,獲取了三個(gè)兩片段集合候選。圖9C示出了當(dāng)"邏輯元素群組G1:項(xiàng)目"的元素號(hào)碼E13的標(biāo)題單詞候選"消耗品費(fèi)"和"邏輯元素群組G2:年度"的元素號(hào)碼E23的標(biāo)題單詞候選"19年度"被選擇時(shí)的三片段集合候選。也就是說,只有圖9A和9B共同的數(shù)據(jù)(8,000)被包括在三片段集合候選中。圖9D示出了當(dāng)"邏輯元素群組G1:項(xiàng)目"的元素號(hào)碼E11的標(biāo)題單詞候選"旅費(fèi)"和"邏輯元素群組G2:年度"的元素號(hào)碼E21的標(biāo)題單詞候選"17年度"被選擇時(shí)的三片段集合候選。也就是說,圖7A和7B共同的九片段數(shù)據(jù)被包括在三片段集合候選中。圖10是詳細(xì)示出多標(biāo)題/一數(shù)據(jù)片段集合候選生成處理(步驟S605)的流程圖。如圖10所示,首先,標(biāo)題邏輯元素群組計(jì)數(shù)N被設(shè)置為N二2(步驟S100),并且(N+l)片段集合候選生成處理被執(zhí)行(步驟S1002)。隨后遞增N(步驟S1003),并且判定是否滿足N<Nmax(步驟S1004)。如果不滿足N〈Nmax(步驟S1004:否),則過程返回到步驟S1002。另一方面,如果滿足N〈Nmax(步驟S1004:是),則第二生成部件504的處理序列終止。結(jié)果,圖9C和9D所示的(N+l)片段集合候選被自動(dòng)生成?,F(xiàn)描述圖IO所示的(N+l)片段集合候選生成處理的詳細(xì)處理過程。圖11和12是詳細(xì)示出(N+l)片段集合候選生成處理的流程圖。(N+l)片段集合候選是基于N片段集合候選來創(chuàng)建的,并且可由任意數(shù)目的標(biāo)題項(xiàng)來指示。如圖ll所示,(N+l)片段集合候選計(jì)數(shù)d被設(shè)置為d=l(步驟S1101),并且N片段集合候選的號(hào)碼n被設(shè)置為n^1(步驟S1102)。與N片段集合候選相關(guān)的信息被讀取(步驟S1103)。要讀取的信息如下。HN(n,*):第n個(gè)N片段集合候選的第*個(gè)標(biāo)題單詞候選DN(n):第n個(gè)N片段集合候選的數(shù)據(jù)單詞候選GHN(n,*):HN(n,*)的第*個(gè)邏輯元素群組號(hào)碼EHN(n,*):HN(n,*)的第*個(gè)邏輯元素號(hào)碼GDN(n):DN(n)的邏輯元素群組號(hào)碼EDN(n):DN(n)的邏輯元素號(hào)碼兩片段集合候選的號(hào)碼m被設(shè)置為m=1(步驟S1104),并且與第m個(gè)兩片段集合候選的信息被讀取(步驟S1105)。要讀取的信息如下。H2(m):第m個(gè)兩片段集合候選的標(biāo)題邏輯元素的單詞候選D2(m):第m個(gè)兩片段集合候選的數(shù)據(jù)邏輯元素的單詞候選GH2(m):H2(m)的邏輯元素群組號(hào)碼EH2(m):H2(m)的邏輯元素號(hào)碼GD2(m):D2(m)的邏輯元素群組號(hào)碼ED2(m):D2(m)的邏輯元素號(hào)碼判定Dw(n)和D2(m)是否由相同字符號(hào)碼串構(gòu)成(步驟S1106)。如果Dw(n)和D2(m)不是由相同字符號(hào)碼串構(gòu)成的(步驟S1106:否),則過程去到圖12的步驟S1204。另一方面,如果D^n)和D2(m)是由相同字符號(hào)碼串構(gòu)成的(步驟S1106:是),則判定Dn(ii)和D2(m)是否相同(步驟S1107)。如果Dn(ii)和D2(m)不相同(步驟S1107:否),則過程去到圖12的步驟S1204。如果DN(n)和D2(m)相同(步驟S1107:是),則判定GDN(n)和GD2(m)是否相同(步驟S1108)。如果GDN(n)和GD2(m)不相同(步驟S1108:否),則過程去到圖12的步驟S1204。另一方面,如果GDn(ii)和GD2(m)相同(步驟S1108:是),標(biāo)志f被設(shè)置為f二0(步驟S1109)。將N片段集合候選的父號(hào)碼i設(shè)置為i=1(步驟S1110),并且判定GHN(n,"和GH2(m)是否不同(步驟Sllll)。如果GHN(n,*)和GH2(m)相同(步驟Sllll:否),則標(biāo)志f被設(shè)置為f=1(步驟S1112),并且過程去到步驟S1113。如果GHN(n,*)和GH2(m)不同(步驟Sllll:是),則父號(hào)碼i被遞增(步驟S1113)。然后判定是否滿足i<N(步驟S1114),并且如果滿足i<N(步驟S1114:是),則過程返回到步驟Sllll。如果不滿足i<N(步驟S1114:否),即,在i二N的情況下,過程去到圖12的步驟S1201。如圖12所示,判定是否滿足標(biāo)志f二0(步驟S1201)。如果不滿足f=0(步驟S120h否),則過程去到步驟S1204。如果滿足f=0(步驟S1201:是),則候選被存儲(chǔ)以作為(N+l)片段集合候選(步驟S1202),并且(N+l)片段集合候選計(jì)數(shù)d被遞增(步驟S1203)。在步驟S1204,遞增兩片段集合候選的號(hào)碼m(步驟S1204),并且判定是否滿足m《mmax(步驟S1205)。在此情況下,mmax表示兩片段集合候選的總數(shù)。如果滿足m《mmax(步驟S1205:是),則過程去到圖11所示的步驟S1105。另一方面,如果不滿足m《mmax(步驟S1205:否),則遞增N片段集合候選的號(hào)碼n(步驟S1206),并且判定是否滿足n《nmax(步驟S1207)。在此情況下,nmax表示N片段集合候選的總數(shù)。如果滿足n《nmax(步驟S1207:是),則過程去到圖11所示的步驟S1103。如果不滿足n《nmax(步驟S1207:否),則過程去到圖10所示的步驟S1003以終止(N+l)片段集合候選生成處理。圖13A至14C是詳細(xì)示出對(duì)(N+l)片段集合候選的已確定集合的去除的示意圖。由(N+l)片段集合候選生成部件生成的(N+l)片段集合候選群組包括具有已確定候選的那些和不具有已確定候選的那些。通過確定具有可確定候選的那些,并且通過從(N+l)片段集合候選群組中去除己確定的(N+l)片段集合候選,來遞歸地確定與多個(gè)標(biāo)題相對(duì)應(yīng)的數(shù)據(jù)。參考圖13A至13D和14A至14C,描述了通過使用N=2,即通過對(duì)標(biāo)題項(xiàng)使用兩個(gè)項(xiàng)(項(xiàng)目和年度),而獲取的三片段集合候選。粗線橢圓指示所選擇的標(biāo)題項(xiàng),細(xì)線橢圓指示能夠由所選擇的標(biāo)題項(xiàng)標(biāo)識(shí)的數(shù)據(jù)。鏈接粗線橢圓和細(xì)線橢圓的線段指示所形成的組合。粗線橢圓和細(xì)線橢圓的組合是三片段集合候選。圖13A至13D示出了前向處理。圖13A示出了當(dāng)邏輯元素群組G1的標(biāo)題單詞候選"旅費(fèi)"和邏輯元素群組G2的標(biāo)題單詞候選"17年度"被選擇時(shí)的三片段集合候選。也就是說,圖7A和7C共同的九段數(shù)據(jù)構(gòu)成了三片段集合候選。在此階段,存在包括標(biāo)題單詞候選"旅費(fèi)"和"17年度"的九個(gè)三片段集合候選。如圖13B所示,從來自圖13A所示的狀態(tài)的具有標(biāo)題單詞候選"旅費(fèi)"和"17年度"的三片段集合候選中包括的九個(gè)數(shù)據(jù)單詞候選"100,000"至"8,000"中確定/去除數(shù)據(jù)單詞候選"100,000"。未確定的數(shù)據(jù)單詞候選由多重細(xì)線橢圓指示。雖然存在九個(gè)數(shù)據(jù)單詞候選,但由于數(shù)據(jù)單詞候選"100,000"僅由標(biāo)題單詞候選"旅費(fèi)"和"17年度"標(biāo)識(shí),并且未被包括為標(biāo)題單詞候選的其他組合的候選,因此數(shù)據(jù)單詞候選"100,000"被自動(dòng)確定為(N+l)片段集合并且被從(N+l)片段集合候選群組中去除。也就是說,確定17年度的旅費(fèi)為100,000。圖13C示出了從剩余的八個(gè)未確定的數(shù)據(jù)單詞候選中確定/去除具有標(biāo)題單詞候選"旅費(fèi)"和"18年度"的三片段集合候選中包括的數(shù)據(jù)單詞候選"110,000"和具有標(biāo)題單詞候選"設(shè)備費(fèi)"和"17年度"的三片段集合候選中包括的數(shù)據(jù)單詞候選"400,000"的狀態(tài)。這兩個(gè)三片段集合候選都不具有被包括為除"旅費(fèi)"和"17年度"外的標(biāo)題單詞候選的其他組合的候選,因此被自動(dòng)確定為(N+l)片段集合并被從(N+l)片段集合候選群組中去除。也就是說,確定17年度的設(shè)備費(fèi)為400,000,并且18年度的旅費(fèi)為110,000。圖13D示出了前向處理。如圖13D所示的從左上側(cè)到最右下側(cè)處理數(shù)據(jù)被稱為前向處理,并且數(shù)據(jù)單詞候選被逐一減少。因此,標(biāo)識(shí)數(shù)據(jù)單詞候選的邏輯元素群組Gl和G2的標(biāo)題單詞候選可被唯一地識(shí)別。雖然在第二至第四輪中存在多個(gè)數(shù)據(jù)單詞候選,但是在同一輪中可以首先確定任何數(shù)據(jù)單詞候選。圖14A至14C示出了后向處理。圖14A示出了由邏輯元素群組G1的標(biāo)題單詞候選"消耗品費(fèi)",邏輯元素群組G2的標(biāo)題單詞候選"19年度"以及由這兩個(gè)標(biāo)題單詞候選標(biāo)識(shí)的數(shù)據(jù)單詞候選"8,000"構(gòu)成的(N+l)片段集合候選。由于只存在一個(gè)數(shù)據(jù)單詞候選,因此該候選被自動(dòng)確定為(N+l)片段集合,并被從(N+l)片段集合候選群組中去除。也就是說,確定19年度的消耗品費(fèi)為8,000。圖14B示出了由邏輯元素群組Gl的標(biāo)題單詞候選"消耗品費(fèi)",邏輯元素群組G2的標(biāo)題單詞候選"18年度"以及由這兩個(gè)標(biāo)題單詞候選標(biāo)識(shí)的數(shù)據(jù)單詞候選"5,000"構(gòu)成的(N+l)片段集合候選。雖然存在兩個(gè)數(shù)據(jù)單詞候選,但由于數(shù)據(jù)單詞候選"8,000"已在圖14A中被確定,因此候選縮窄到數(shù)據(jù)單詞候選"5,000"。因此,該候選被自動(dòng)確定為(N+l)片段集合,并被從(N+l)片段集合候選群組中去除。也就是說,確定18年度的消耗品費(fèi)為5,000。圖14C示出了后向處理。如圖14C所示的從最右下側(cè)數(shù)據(jù)到左上側(cè)的處理被稱為后向處理,并且數(shù)據(jù)單詞候選被逐一減少。因此,標(biāo)識(shí)數(shù)據(jù)單詞候選的邏輯元素群組Gl和G2的標(biāo)題單詞候選可被唯一地識(shí)別。雖然在第二至第四輪中存在多個(gè)數(shù)據(jù)單詞候選,但是在同一輪中可以首先確定任何數(shù)據(jù)單詞候選。圖15是詳細(xì)示出已確定集合去除處理(步驟S606)的流程圖。如圖15所示,首先,執(zhí)行圖13A至13D所示的前向處理(步驟S1501),并且執(zhí)行(N+l)片段集合候選去除處理(步驟S1502)。然后執(zhí)行圖14A至14C所示的后向處理(步驟S1503)并且執(zhí)行(N+l)片段集合候選去除處理(步驟S1504)。結(jié)果,已確定集合被保留,并且過程去到步驟S607。在己確定集合去除處理(步驟S606)中,可以只執(zhí)行前向處理(步驟S1501)及其(N+l)片段集合候選去除處理(步驟S1502),或者可以只執(zhí)行后向處理(步驟S1503)及其(N+l)片段集合候選去除處理(步驟S1504)。但是,通過在后向處理(步驟S1503)之前執(zhí)行前向處理(步驟S1501)及其(N+l)片段集合候選去除處理(步驟S1502),可以減少發(fā)送到后向處理(步驟S1503)的輸出(N+l)片段集合候選的數(shù)目,從而可在后向處理(步驟S1503)中高效地去除已確定集合。圖16是詳細(xì)示出圖13A至13D所示的前向處理的流程圖。如圖16所示,首先,已去除候選計(jì)數(shù)i被設(shè)置為i=0(步驟S1601),并且輸入(N+l)片段集合候選號(hào)碼n被設(shè)置為n=1(步驟S1602)。檢測(cè)標(biāo)志f被設(shè)置為f二O(步驟S1603),并且輸出(N+l)片段集合候選號(hào)碼m被設(shè)置為111=1(步驟S1604)。然后判定是否滿足m^n(步驟S1605)。如果不滿足m#n(步驟S1605:否),則過程去到步驟S1608。另一方面,如果滿足m#n(步驟S1605:是),則判定第m個(gè)數(shù)據(jù)單詞候選的字符號(hào)碼是否包括在第n個(gè)數(shù)據(jù)單詞候選的字符號(hào)碼中(步驟S1606);如果包括(步驟S1606:是),則檢測(cè)標(biāo)志f被設(shè)置為f:1(步驟S1607),并且過程去到步驟S1608。另一方面,如果第m個(gè)數(shù)據(jù)單詞候選的字符號(hào)碼不被包括(步驟S1606:否),則檢測(cè)標(biāo)志f保持f二0并且過程去到步驟S1608。在步驟S1608,遞增輸出(N+l)片段集合候選號(hào)碼m(步驟S1608),并且判定是否滿足m《mmax(步驟S1609)。在此情況下,mmax表示(N+l)片段集合候選計(jì)數(shù)。如果滿足m《mmax(步驟S1609:是),則過程去到步驟S1605。另一方面,如果不滿足m《mmax(步驟S1609:否),則判定是否滿足檢測(cè)標(biāo)志f二O(步驟S1610)。如果不滿足f二0(步驟S1610:否),則過程去到步驟S1613。如果滿足f二0(步驟S1610:是),則第n個(gè)(N+l)片段集合候選被存儲(chǔ)以作為已去除候選(步驟S1611)。已去除候選計(jì)數(shù)i隨后被遞增(步驟S1612),并且輸入(N+l)片段集合候選號(hào)碼n被遞增(步驟S1613),以判定是否滿足n《mmax(步驟S1614)。如果滿足n《mmax(步驟S1614:是),則過程返回到步驟S1603。如果不滿足n《mmax(步驟S1614:否),則前向處理終止并且過程去到步驟S1502。圖17是詳細(xì)示出(N+l)片段集合候選去除處理(步驟S1502或S1504)的流程圖。如圖17所示,首先,輸入(N+l)片段集合候選號(hào)碼n被設(shè)置為n-1(步驟S1701);輸出(N+l)片段集合候選號(hào)碼m被設(shè)置為m=1(步驟S1702);并且去除序列號(hào)碼p被設(shè)置為p=1(步驟51703)。輸入(N+l)片段集合候選是前一階段的輸出結(jié)果。也就是說,如果(N+l)片段集合候選去除處理是步驟S1502,則輸入(N+l)片段集合候選是從圖16所示的前向處理(步驟S1501)輸出的(N+l)片段集合候選,并且(N+l)片段集合候選由此(N+l)片段集合候選去除處理(步驟S1502)來確定。另一方面,如果(N+l)片段集合候選去除處理是步驟S1504,則輸入(N+l)片段集合候選是從圖18所示的后向處理(步驟S1503)輸出的(N+l)片段集合候選,并且(N+l)片段集合候選由此(N+l)片段集合候選去除處理(步驟S1504)來確定。再次參考圖17,在步驟S1703之后,判定是否滿足e(p)=n(步驟51704)。在此情況下,e(p)是具有去除序列號(hào)碼p的輸入(N+l)片段集合候選(在圖16的步驟S1611存儲(chǔ)的已去除候選)。如果滿足e(p)二n(步驟S1704:是),則過程去到步驟S1707。另一方面,如果不滿足e(p)二n(步驟S1704:否),則第n個(gè)輸入(N+l)片段集合候選被拷貝到輸出(N+l)片段集合候選群組中(步驟S1705)。輸出(N+l)片段集合候選號(hào)碼m隨后被遞增(步驟S1706),并且去除序列號(hào)碼p被遞增(步驟S1707)。判定是否滿足p《pmax(步驟S1708)。在此情況下,pmax表示與已去除候選相對(duì)應(yīng)的(N+l)片段集合候選計(jì)數(shù)。如果滿足p《pmax(步驟S1708:是),則過程返回到步驟S1704。如果不滿足p《pmax(步驟S1708:否),則遞增輸入(N+l)片段集合候選號(hào)碼n(步驟S1709)并且判定是否滿足n《nmax(步驟S1710)。在此情況下,nmax表示(N+l)片段集合候選計(jì)數(shù)。如果滿足n《nmax(步驟S1710:是),則過程返回到步驟S1702。另一方面,如果不滿足n《nmax(步驟S1710:否),則在步驟S1705獲取的輸出(N+l)片段集合候選群組被輸出(步驟S1711)。如果(N+l)片段集合候選去除處理是步驟S1502,則過程去到步驟S1503,而如果處理是步驟S1504,則過程去到步驟S607。圖18是詳細(xì)示出圖14A至14C所示的后向處理的流程圖。如圖18所示,首先,已去除候選計(jì)數(shù)i被設(shè)置為i=0(步驟S1801),并且輸入(N+l)片段集合候選號(hào)碼n被設(shè)置為n=1(步驟S1802)。檢測(cè)標(biāo)志f被設(shè)置為f二0(步驟S1803),并且輸出(N+l)片段集合候選號(hào)碼m被設(shè)置為m-l(步驟S1804)。然后判定是否滿足m^n(步驟S1805)。如果不滿足m#n(步驟S1805:否),則過程去到步驟S1807。另一方面,如果滿足m#n(步驟S1805:是),則執(zhí)行標(biāo)題邏輯元素比較處理(步驟S1806)。標(biāo)題邏輯元素比較處理(步驟S1806)在下文中描述。在標(biāo)題邏輯元素比較處理(步驟S1806)之后,遞增(N+l)片段集合候選號(hào)碼m(步驟S1807),并且判定是否滿足m《nmax(步驟S1808)。在此情況下,nmax表示(N+l)片段集合候選計(jì)數(shù)。如果滿足m《nmax(步驟S1808:是),則過程返回到步驟S1805。如果不滿足m《nmax(步驟S1808:否),則判定檢測(cè)標(biāo)志f是否為f=0(歩驟S畫)。如果不滿足f-0(步驟S1809:否),則過程去到步驟S1812。另一方面,如果滿足f-0(步驟S1809:是),則第n個(gè)(N+l)片段集合候選被保存以作為己去除候選(步驟S1810)。已去除候選計(jì)數(shù)i隨后被遞增(步驟S1811),并且(N+l)片段集合候選號(hào)碼n被遞增(步驟S1812),以判定是否滿足n《mmax(步驟S1813)。如果滿足n《mmax(步驟S1813:是),則過程返回到步驟S1803。如果不滿足n《mmax(步驟S1813:否),則后向處理終止并且過程去到步驟S1504。圖19是詳細(xì)示出圖18所示的標(biāo)題邏輯元素比較處理(步驟S1806)的流程圖。如圖19所示,(N+l)片段集合候選號(hào)碼n的標(biāo)題號(hào)碼j被設(shè)置為j=1(步驟S1901);(N+l)片段集合候選號(hào)碼m的標(biāo)題號(hào)碼k被設(shè)置為k=1(步驟S1902);并且標(biāo)題同值標(biāo)志ff被設(shè)置為ff=0(步驟S簡)。然后判定標(biāo)題號(hào)碼j的標(biāo)題單詞候選的邏輯元素是否等同于標(biāo)題號(hào)碼k的標(biāo)題單詞候選的邏輯元素(步驟S1904)。如果邏輯元素不等同(步驟S1904:否),則標(biāo)題同值標(biāo)志ff被遞增(步驟S1906),并且過程去到步驟S1909。另一方面,如果邏輯元素等同(步驟S1904:是),則判定標(biāo)題號(hào)碼j的標(biāo)題單詞候選的字符號(hào)碼串是否等同于標(biāo)題號(hào)碼k的標(biāo)題單詞候選的字符號(hào)碼串(步驟S1905)。如果字符號(hào)碼串等同(歩驟S1905:是),則標(biāo)題同值標(biāo)志ff被遞增(步驟S1906),并且過程去到步驟S1909。另一方面,如果字符號(hào)碼串不等同(步驟S1905:否),則遞增標(biāo)題號(hào)碼k(步驟S1907),并且判定是否滿足k《kmax(步驟S1908)。在此情況下,kmax表示標(biāo)題計(jì)數(shù)。如果滿足k《kmax(步驟S1908:是),則過程回到步驟S1903并且標(biāo)題同值標(biāo)志被重置為ff二0。另一方面,如果不滿足k《kmax(步驟S1908:否),則遞增標(biāo)題號(hào)碼j(步驟S1909),并且判定是否滿足j=jmax(步驟S1910)。如果不滿足j=jmax(步驟S1910:否),則判定標(biāo)題同值標(biāo)志ff是否為ff=kmax(步驟S1911)。在此情況下,kmax表示標(biāo)題計(jì)數(shù)。如果不滿足ff二kmax(步驟S1911:否),則標(biāo)題邏輯元素比較處理(步驟S1806)終止,并且過程去到步驟S1807。如果滿足ff二kmax(步驟S1911:是),則檢測(cè)標(biāo)志f被設(shè)置為f=1(步驟S1912),以終止標(biāo)題邏輯元素比較處理(步驟S1806),并且過程去到步驟S1807。如上所述,根據(jù)以上實(shí)施例,可以從圖1A所示的表單100分析邏輯結(jié)構(gòu)。以上實(shí)施例可應(yīng)用到獨(dú)立于表格和標(biāo)題的順序和布局的表單100。圖20A和20B是表單的其他示例的示意圖。圖20A的表單2001是這樣一個(gè)表單,其中17年度的旅費(fèi)、設(shè)備費(fèi)和消耗品費(fèi)被寫在一行中。圖20B的表單2002是這一個(gè)表單,其中17年度的旅費(fèi)、設(shè)備費(fèi)和消耗品費(fèi)和18年度的旅費(fèi)、設(shè)備費(fèi)和消耗品費(fèi)分別被寫在兩行中。圖21是從圖20A所示的表單2001獲得的兩片段集合候選的示意圖。在圖21中,粗線橢圓指示標(biāo)題單詞候選,細(xì)線橢圓指示數(shù)據(jù)單詞候選。如果表單2001被表示為一行,則能夠構(gòu)成具有某一標(biāo)題單詞候選的兩片段集合的數(shù)據(jù)單詞候選位于該標(biāo)題單詞候選的右側(cè)。兩片段集合候選是利用此屬性生成的。如圖21所示,由于兩片段集合候選群組2101具有三個(gè)數(shù)據(jù)單詞候選,因此生成了三個(gè)兩片段集合候選({17年度,100,000}、{17年度,400,000}以及{17年度,3,000})。由于兩片段集合候選群組2102也具有三個(gè)數(shù)據(jù)單詞候選,因此生成了三個(gè)兩片段集合候選({旅費(fèi),100,000}、{旅費(fèi),400,000}以及{旅費(fèi),3,000})。由于兩片段集合候選群組2103具有兩個(gè)數(shù)據(jù)單詞候選,因此生成了兩個(gè)兩片段集合候選({設(shè)備費(fèi),400,000}和{設(shè)備費(fèi),3,000})。由于兩片段集合候選群組2104具有一個(gè)數(shù)據(jù)單詞候選,因此候選被直接確定為兩片段集合候選({消耗品費(fèi),3,000})。圖22A至22C是從圖20A所示的表單2001獲得的(N+l)片段集合候選的示意圖。這里使用了兩個(gè)標(biāo)題邏輯元素(項(xiàng)目和年度),因此導(dǎo)致N=2。如圖22A所示,由于三片段集合候選群組2201具有三個(gè)數(shù)據(jù)單詞候選,因此生成三個(gè)三片段集合候選({17年度,旅費(fèi),100,000}、{17年度,旅費(fèi),400,000}和{17年度,旅費(fèi),3,000})。在這三個(gè)三片段集合候選中,由于{17年度,旅費(fèi),100,000}的數(shù)據(jù)單詞候選"100,000"未被用在其他的三片段集合候選群組2202和2203中,所以{17年度,旅費(fèi),100,000}被前向處理(步驟S1501)所確定/去除。如圖22B所示,由于三片段集合候選群組2202具有兩個(gè)數(shù)據(jù)單詞候選,因此生成了兩個(gè)三片段集合候選(卩7年度,設(shè)備費(fèi),400,000}和{17年度,設(shè)備費(fèi),3,000})。如圖22C所示,由于三片段集合候選群組2203具有一個(gè)數(shù)據(jù)單詞候選,因此直接生成三片段集合({17年度,消耗品費(fèi),3,000})。由于三片段集合候選(群組)2203只具有數(shù)據(jù)單詞候選"3,000",因此該候選被后向處理(步驟S1503)確定/去除。圖23A和23B是從圖20B所示的表單2002獲得的兩片段集合候選的示意圖。在圖23A和23B中,粗線橢圓指示標(biāo)題單詞候選,細(xì)線橢圓指示數(shù)據(jù)單詞候選。如果表單2002被表示成多行(在此情況下是兩行),則能夠構(gòu)成具有某一標(biāo)題單詞候選的兩片段集合的數(shù)據(jù)單詞候選位于該數(shù)據(jù)單詞候選的右側(cè)、下側(cè)或右下側(cè)。兩片段集合候選是利用此屬性生成的。圖23A和23B示出了為同一數(shù)據(jù)單詞候選"5,000"選擇"18年度"和"消耗品費(fèi)"作為標(biāo)題單詞候選時(shí)的三片段集合候選。圖23A示出了當(dāng)17年度的行中的"消耗品費(fèi)"被選擇時(shí)的三片段集合候選2301,圖23B示出了當(dāng)18年度的行中的"消耗品費(fèi)"被選擇時(shí)的三片段集合候選2302。如果同一標(biāo)題單詞候選多次存在,像上面的"消耗品費(fèi)"那樣,則三片段集合候選無法被唯一地識(shí)別。因此,從標(biāo)題單詞候選"消耗品費(fèi)"中的每一個(gè)相對(duì)于兩者共同的數(shù)據(jù)單詞候選"5,000"的位置的位置來確定正確的標(biāo)題單詞候選。此處理由圖5所示的標(biāo)題單詞候選評(píng)估部件506來執(zhí)行。圖24是在同一標(biāo)題單詞候選"消耗品費(fèi)"多次存在時(shí)的標(biāo)題單詞候選評(píng)估技術(shù)的示意圖。雖然可由標(biāo)題單詞候選標(biāo)識(shí)的數(shù)據(jù)單詞候選在位于表單上標(biāo)題單詞候選的右側(cè)、下側(cè)或右下側(cè)時(shí)能夠被標(biāo)識(shí),但如果右側(cè)和右下側(cè)像圖24所示那樣彼此競爭,則右側(cè)被優(yōu)先采用。類似地,如果下側(cè)和右下側(cè)彼此競爭,則下側(cè)被優(yōu)先采用。也就是說,位于數(shù)據(jù)單詞候選的水平或垂直方向(或者基本水平或垂直的方向)的標(biāo)題單詞候選被給予優(yōu)先權(quán)。更具體而言,通過獲得鏈接標(biāo)題單詞候選的外接矩形2402和2403的中心q3和數(shù)據(jù)單詞候選的外接矩形2401的中心Ql的線段L12和L13,并且相對(duì)于經(jīng)過數(shù)據(jù)單詞候選的中心Ql的水平線L評(píng)估線段L12和L13,即通過評(píng)估角度012和6>13,可選擇適當(dāng)?shù)臉?biāo)題單詞候選。角度012是由水平線L和線段L12形成的角度,角度013是由水平線L和線段L13形成的角度。對(duì)于每個(gè)角度,獲得sin26L角度012和013被代入0。如果結(jié)果是sin20的值變?yōu)榱?,則確定標(biāo)題單詞候選相對(duì)于數(shù)據(jù)單詞候選位于水平或垂直方向(或基本水平或垂直的方向),并且該標(biāo)題單詞候選被選擇為適當(dāng)?shù)臉?biāo)題單詞候選。由于在圖24所示的示例中013為180度,因此sin20的值變?yōu)榱?,并且外接矩?403的標(biāo)題單詞候選被選擇。也就是說,如圖23A和23B所示,圖23B的三片段集合候選是正確的。圖25是標(biāo)題單詞候選評(píng)估處理(步驟S607)的詳細(xì)流程圖。如圖25所示,首先,評(píng)估目標(biāo)候選計(jì)數(shù)i被設(shè)置為i=0(步驟S2501);(N+l)片段集合候選號(hào)碼n被設(shè)置為n=1(步驟S2502);檢測(cè)標(biāo)志f被設(shè)置為f-0(步驟S2503);并且另一(N+l)片段集合候選號(hào)碼m被設(shè)置為111=1(步驟S2504)。判定號(hào)碼n的(N+l)片段集合候選和號(hào)碼m的(N+l)片段集合候選是否是相同邏輯元素群組的相同邏輯元素(步驟S2505)。如果這些候選不是相同邏輯元素群組的相同邏輯元素(步驟S2505:否),則過程去到步驟S2513。另一方面,如果這些候選是相同邏輯元素群組的相同邏輯元素(步驟S2505:是),則判定是否滿足m^n(步驟S2506)。如果不滿足m#n(步驟S2506:否),則過程去到步驟S2513。如果滿足m#n(步驟S2506:是),則判定號(hào)碼m的(N+l)片段集合候選的數(shù)據(jù)單詞候選的字符號(hào)碼是否被包括在號(hào)碼n的(N+l)片段集合候選的數(shù)據(jù)單詞候選的字符號(hào)碼中(步驟S2507)。如果字符號(hào)碼未被包括(步驟S1507:否),則過程去到步驟S2513;如果包括(步驟S2507:是),則在號(hào)碼m的(N+l)片段集合候選和號(hào)碼n的(N+l)片段集合候選之間具有不相同的邏輯元素群組、邏輯元素和字符號(hào)碼的標(biāo)題單詞候選的數(shù)目被計(jì)數(shù)(步驟S2508)。然后判定標(biāo)題單詞候選計(jì)數(shù)的差別是否不大于1(步驟S2509)。如果差別大于l(步驟S2509:否),則過程去到步驟S2513。如果差別不大于1(步驟S2509:是),則標(biāo)題單詞候選和數(shù)據(jù)單詞候選之間的角度被計(jì)算(步驟S2510)。然后判定號(hào)碼n的(N+l)片段集合候選的標(biāo)題單詞候選的位置是否位于數(shù)據(jù)單詞候選的位置的水平或垂直方向上(或基本水平或垂直的方向上)(步驟S2511)。如果不位于水平或垂直方向上(或者不位于基本水平或垂直的方向上)(步驟S2511:否),則過程去到步驟S2513I;如果位于水平或垂直方向上(或者位于基本水平或垂直的方向上)(步驟S2512:否),則檢測(cè)標(biāo)志f被設(shè)置為f:l(步驟S2512),并且m被遞增(步驟S2513)。判定是否滿足m《mmax(步驟S2514)。在此情況下,mmax表示(N+l)片段集合候選計(jì)數(shù)。如果滿足m《max(步驟S2514:是),則過程回到步驟S2505。另一方面,如果不滿足m《mmax(步驟S25M:否),則判定檢測(cè)標(biāo)志f是否是f二l(步驟S2515)。如果不滿足f-l(步驟S2515:否),則過程去到步驟S2517,因?yàn)樵摵蜻x不是候選去除的目標(biāo)。另一方面,如果滿足f=0(步驟S2515:是),則第n個(gè)(N+l)片段集合候選被存儲(chǔ)以作為已去除候選e(p)(步驟S2516),并且號(hào)碼n被遞增(步驟S2517)。然后判定是否滿足n《mmax(步驟S2518)。如果滿足n《mmax(步驟S2518:是),則過程回到步驟S2504。如果不滿足n《mmax(步驟S2518:否),則標(biāo)題單詞候選評(píng)估處理終止。在步驟S2516存儲(chǔ)的已去除候選e(p)被輸出,作為已確定的(N+l)片段集合。圖26是在同一標(biāo)題單詞候選"消耗品費(fèi)"多次存在時(shí)標(biāo)題單詞候選的另一種評(píng)估技術(shù)的示意圖。圖26示出了根據(jù)包含一組標(biāo)題單詞候選的外接矩形和數(shù)據(jù)單詞候選的外接矩形的新外接矩形的大小(面積)來采用適當(dāng)?shù)臉?biāo)題單詞候選的示例。具有較小的外接矩形的標(biāo)題單詞候選被采用。外接矩形2601是外接數(shù)據(jù)單詞候選的外接矩形2401和標(biāo)題單詞候選的外接矩形2402的矩形,外接矩形2602是外接數(shù)據(jù)單詞候選的外接矩形2401和標(biāo)題單詞候選的外接矩形2403的矩形。由于外接矩形2602與外接矩形2601相比較小,因此外接矩形2602中包括的外接矩形2403的標(biāo)題單詞候選被選擇為適當(dāng)?shù)臉?biāo)題單詞候選。圖27是詳細(xì)示出標(biāo)題單詞候選評(píng)估處理(步驟S607)的另一過程的流程圖。在圖27的流程圖中,圖25的流程圖的步驟S2510和S2511被步驟S2710和S2711所替換,其他步驟與圖25的相同。在步驟S2710,號(hào)碼n和m的標(biāo)題單詞候選被檢測(cè)并與共同的數(shù)據(jù)單詞候選相組合,以生成包括號(hào)碼n的標(biāo)題單詞候選的外接矩形和數(shù)據(jù)單詞候選的外接矩形的號(hào)碼n的外接矩形,和包括號(hào)碼m的標(biāo)題單詞候選的外接矩形和數(shù)據(jù)單詞候選的外接矩形的號(hào)碼m的外接矩形,并且兩個(gè)外接矩形的面積被計(jì)算。然后過程去到步驟S2711。在步驟S2711,判定號(hào)碼n的外接矩形的面積是否小于號(hào)碼m的外接矩形的面積。如果面積不小于(步驟S2711:否),則過程去到步驟S2513。另一方面,如果面積小于(步驟S2711:是),則過程去到步驟S2512。后續(xù)的處理與圖25的相同。根據(jù)標(biāo)題單詞候選評(píng)估部件506,如果同一標(biāo)題單詞候選多次存在,則可識(shí)別適當(dāng)?shù)臉?biāo)題單詞候選,并且在表單的邏輯結(jié)構(gòu)分析中可實(shí)現(xiàn)更高的準(zhǔn)確度。現(xiàn)詳細(xì)描述圖5所示的數(shù)據(jù)單詞候選評(píng)估部件507。圖28是表單的另一示例的示意圖。如圖28的(A)部分所示,表單2800的標(biāo)題項(xiàng)("旅費(fèi)"和"設(shè)備費(fèi)")和數(shù)據(jù)("100,000"和"400,000")在某些部分并行地寫為兩層。雖然人可以在直覺上知道旅費(fèi)是100,000(日元)并且設(shè)備費(fèi)是400,000(日元),但是此邏輯結(jié)構(gòu)無法如上所述地被唯一識(shí)別。在圖28的示例中,雖然標(biāo)題項(xiàng)2801只具有標(biāo)題項(xiàng)候選"17年度",但標(biāo)題項(xiàng)2802具有兩個(gè)標(biāo)題項(xiàng)候選("旅費(fèi)"和"設(shè)備費(fèi)")。類似地,數(shù)據(jù)項(xiàng)(dataitem)2803具有兩個(gè)數(shù)據(jù)項(xiàng)候選("100,000"和"400,000")。因此,如圖28所示,存在四個(gè)樣式的三片段集合候選28B至28E。在圖28中,粗線橢圓指示標(biāo)題單詞候選,細(xì)線橢圓指示數(shù)據(jù)單詞候選。三片段集合候選28B由標(biāo)題單詞候選"17年度"、標(biāo)題單詞候選"旅費(fèi)"和數(shù)據(jù)單詞候選"100,000"構(gòu)成。三片段集合候選28C由標(biāo)題單詞候選"17年度"、標(biāo)題單詞候選"設(shè)備費(fèi)"和數(shù)據(jù)單詞候選"400,000"構(gòu)成。三片段集合候選28D由標(biāo)題單詞候選"17年度"、標(biāo)題單詞候選"旅費(fèi)"和數(shù)據(jù)單詞候選"400,000"構(gòu)成。三片段集合候選28E由標(biāo)題單詞候選"17年度"、標(biāo)題單詞候選"設(shè)備費(fèi)"和數(shù)據(jù)單詞候選"100,000"構(gòu)成。在識(shí)別出三片段集合候選28B至28E之后,計(jì)算從標(biāo)題項(xiàng)2802選擇的標(biāo)題單詞候選和從數(shù)據(jù)項(xiàng)選擇的數(shù)據(jù)單詞候選之間的距離,以識(shí)別三片段集合候選28B至28E之中具有相同的所計(jì)算距離的三片段集合候選。圖29A和29B是三片段集合候選的組合的評(píng)估示例的示意圖。圖29A示出了三片段集合候選28B和28C的組合的評(píng)估示例,圖29B示出了三片段集合候選28D和28E的組合的評(píng)估示例。在三片段集合候選28B至28E中計(jì)算的距離分別是db、dc、dd和de。距離db和dc在圖29A中是等同的,距離dd和de在圖29B中是等同的。因此,三片段集合候選28B和28C被選擇為適當(dāng)?shù)娜渭虾蜻x。當(dāng)實(shí)際選擇適當(dāng)?shù)娜渭虾蜻x時(shí),獲得標(biāo)題單詞候選和數(shù)據(jù)單詞候選之間的距離,并且選擇具有較小方差(variance)的三片段集合候選。圖30是詳細(xì)示出數(shù)據(jù)單詞候選評(píng)估處理(步驟S608)的流程圖。如圖30所示,(N+l)片段集合候選號(hào)碼n被設(shè)置為n二1(步驟S3001),并且與候選號(hào)碼n并發(fā)地實(shí)現(xiàn)的(N+l)片段集合候選的數(shù)目tbl一max被設(shè)置為tbl—max(n)=0(步驟S3002)。然后判定候選號(hào)碼n是否被包括在候選號(hào)碼表格tbl(i,j)中(其中1=l至n-l,并且j=l至tbl—max(i))(步驟S3003)。如果候選號(hào)碼n被包括(步驟S3003:是),則過程去到步驟S3014。如果候選號(hào)碼n不被包括(步驟S3003:否),則候選號(hào)碼表格tbl(i,j)被設(shè)置為tbl(n,1)=1(步驟S3004),并且tbl—max(n)=1被設(shè)置(步驟S3005)。候選號(hào)碼n的(N+l)片段集合候選的同時(shí)實(shí)現(xiàn)的候選的候選號(hào)碼m被設(shè)置為m=1(步驟S3006)。同時(shí)實(shí)現(xiàn)可能性(concurrentrealizability)檢查處理被執(zhí)行(步驟S3007)。同時(shí)實(shí)現(xiàn)可能性檢査處理(步驟S3007)在下文中描述。定義同時(shí)實(shí)現(xiàn)可能性標(biāo)志為f,并且判定同時(shí)實(shí)現(xiàn)可能性標(biāo)志f是否為f=1(步驟S3008)。如果不滿足f^1(步驟S3008:否),則過程去到步驟S3011。如果滿足f=1(步驟S3008:是),則同時(shí)實(shí)現(xiàn)候選計(jì)數(shù)tbl—max(n)被設(shè)置為tbl—max(n)=tbl_max(n)+1(步驟S3009),并且候選號(hào)碼表格tbl(i,j)被設(shè)置為tbl(n,tbl_max(n))=m(步驟S3010)。同時(shí)實(shí)現(xiàn)候選號(hào)碼m隨后被實(shí)現(xiàn)(步驟S3011)。判定是否滿足m《nmax(步驟S3012)。在此情況下,nmax表示(N+l)片段集合候選計(jì)數(shù)。如果滿足m《nmax(步驟S3012:是),則過程去到步驟S3007。如果不滿足m《nmax(步驟S3012:否),則執(zhí)行距離方差計(jì)算處理(步驟S3013)。距離方差計(jì)算處理(步驟S3013)在下文中描述。然后遞增候選號(hào)碼n(步驟S3014),并且判定是否滿足n《nmax(步驟S3015)。如果滿足n《nmax(步驟S3015:是),則過程去到步驟S3002。如果不滿足n《nmax(步驟S3015:否),則執(zhí)行最小方差選擇處理(步驟S3016)。最小方差選擇處理(步驟S3016)在下文中描述。然后,在最小方差選擇處理(步驟S3016)中選擇的(N+l)片段集合候選號(hào)碼tbl(min—n,*)的tbl—max(min—n)個(gè)候選被拷貝到已去除候選(步驟S3017)。過程去到步驟S609。圖31是詳細(xì)示出同時(shí)實(shí)現(xiàn)可能性檢査處理(步驟S3007)的流程圖。如圖31所示,首先,將同時(shí)實(shí)現(xiàn)可能性標(biāo)志f設(shè)置為f=0(步驟S3101),并且判定候選號(hào)碼n的(N+l)片段集合候選的數(shù)據(jù)單詞候選的邏輯元素群組是否等同于候選號(hào)碼m的(N+l)片段集合候選的數(shù)據(jù)單詞候選的邏輯元素群組(步驟S3102)。如果群組不等同(步驟S3102:否),則同時(shí)實(shí)現(xiàn)可能性標(biāo)志f被設(shè)置為f=0(步驟S3114),并且過程去到步驟S3008。另一方面,如果群組等同(步驟S3102:是),則判定候選號(hào)碼n的(N+l)片段集合候選的數(shù)據(jù)單詞候選的邏輯元素是否等同于候選號(hào)碼m的(N+l)片段集合候選的數(shù)據(jù)單詞候選的邏輯元素(步驟S3103)。如果元素等同(步驟S3103:是),則同時(shí)實(shí)現(xiàn)可能性標(biāo)志f被設(shè)置為f=0(步驟S3114),并且過程去到步驟S3008。如果元素不等同(步驟S3103:否),則判定在候選號(hào)碼n的(N+l)片段集合候選的數(shù)據(jù)單詞候選的字符號(hào)碼串和候選號(hào)碼m的(N+l)片段集合候選的數(shù)據(jù)單詞候選的字符號(hào)碼串中是否存在相同字符號(hào)碼(步驟S3104)。如果存在相同字符號(hào)碼(步驟S3104:是),則同時(shí)實(shí)現(xiàn)可能性標(biāo)志f被設(shè)置為f=0(步驟S3114),并且過程去到步驟S3008。另一方面,如果不存在相同字符號(hào)碼(步驟S3104:否),則候選號(hào)碼n的標(biāo)題號(hào)碼p被設(shè)置為p=0(步驟S3105),并且候選號(hào)碼m的標(biāo)題號(hào)碼q被設(shè)置為q=0(步驟S3106)。判定標(biāo)題號(hào)碼p的邏輯元素群組是否等同于標(biāo)題號(hào)碼q的邏輯元素群組(步驟S3107)。如果群組不等同(步驟S3107:否),則同時(shí)實(shí)現(xiàn)可能性標(biāo)志被設(shè)置為f-0(步驟S3114),并且過程去到步驟S3008。如果群組等同(步驟S3107:是),則判定標(biāo)題號(hào)碼p的邏輯元素是否等同于標(biāo)題號(hào)碼q的邏輯元素(步驟S3108)。如果元素等同(步驟S3108:是),則過程去到步驟S3111。另一方面,如果元素不等同(步驟S3108:否),則同時(shí)實(shí)現(xiàn)可能性標(biāo)志f被設(shè)置為f=1(步驟S3109),并且標(biāo)題號(hào)碼q被遞增(步驟S3110)。然后判定是否滿足q《pmax(步驟S3111)。在此情況下,pmax表示標(biāo)題單詞候選計(jì)數(shù)。如果滿足q《pniax(步驟S3111:是),則過程回到步驟S3107。如果不滿足q《pmax(步驟S3111:否),則遞增標(biāo)題號(hào)碼p,并且判定是否滿足p《pmax(步驟S3112)。如果滿足p《pmax(步驟S3113:是),則過程回到步驟S3106。另一方面,如果不滿足p《pmax(步驟S3113:否),則過程去到步驟S3008。圖32A是詳細(xì)示出距離方差計(jì)算處理(步驟S3013)的流程圖。如圖32A所示,表示平均值的變量"a"被設(shè)置為a=0(步驟S3201);表示方差的變量"b"被設(shè)置為b=0(步驟S3202);并且目標(biāo)元素提取處理被執(zhí)行(步驟S3203)。目標(biāo)元素提取處理(步驟S3203)在下文中描述。然后,定義j-0(步驟S2104),并且將同時(shí)實(shí)現(xiàn)的候選的候選號(hào)碼k設(shè)置為k:tbl(n,j)(步驟S3205)。搜索不同于其他同時(shí)實(shí)現(xiàn)的候選的單詞候選(步驟S3206)。然后,計(jì)算x=DGX(k)-DHX(k,1)(步驟S3207)。DGX(k)是候選號(hào)碼k的同時(shí)實(shí)現(xiàn)候選的數(shù)據(jù)單詞候選的中心的X坐標(biāo)值,DHX(k,l)是候選號(hào)碼k的同時(shí)實(shí)現(xiàn)候選的第一標(biāo)題單詞候選的中心的X坐標(biāo)值。類似地,計(jì)算y二DGy(k)-DHy(k,1)(步驟S3208)。DGY(k)是候選號(hào)碼k的同時(shí)實(shí)現(xiàn)候選的數(shù)據(jù)單詞候選的中心的Y坐標(biāo)值,DHY(k,l)是候選號(hào)碼k的同時(shí)實(shí)現(xiàn)候選的第一標(biāo)題單詞候選的中心的Y坐標(biāo)值。計(jì)算出的x和y被用于計(jì)算候選號(hào)碼k的同時(shí)實(shí)現(xiàn)候選的第一標(biāo)題單詞候選和數(shù)據(jù)單詞候選之間的距離d(步驟S3209)。計(jì)算出的距離d被添加到表示平均值的變量a以更新變量a(步驟53210);距離d的平方被添加到表示方差的變量b以更新變量b(步驟53211);并且j被遞增(步驟S3212)。判定是否滿足j《tbl一max(n)(步驟S3213)。如果滿足j《tbl_max(n)(步驟S3213:是),則過程去到步驟S3205。如果不滿足j《tbl—max(n)(步驟S3213:否),則變量a被存儲(chǔ)以作為平均值mean(n)(步驟S3214),并且變量b被存儲(chǔ)以作為方差var(n)(步驟S3215)。這導(dǎo)致距離方差計(jì)算處理的終止,并且過程去到步驟S3014。圖32B是詳細(xì)示出目標(biāo)元素提取處理(步驟S3203)的流程圖。如圖32B所示,目標(biāo)元素號(hào)碼1(*,*)被設(shè)置為1(*,*)=0(步驟S3221);候選號(hào)碼表格tbl(n,l)的標(biāo)題號(hào)碼p被設(shè)置為p=1(步驟S3222);同時(shí)實(shí)現(xiàn)候選號(hào)碼2被設(shè)置為2=2(步驟S3223);候選號(hào)碼表格tbl(n,z)的標(biāo)題號(hào)碼q被設(shè)置為q二l(步驟S3224)。判定標(biāo)題號(hào)碼p的邏輯元素群組是否等同于標(biāo)題號(hào)碼q的邏輯元素群組(步驟S3225),并且如果群組不等同(步驟S3225:否),則過程去到步驟S3230。如果群組等同(步驟S3225:是),則判定標(biāo)題號(hào)碼p的邏輯元素是否等同于標(biāo)題號(hào)碼q的邏輯元素(步驟S3226),并且如果元素不等同(步驟S3226:否),貝ijl(p,z)=q被設(shè)置(步驟S3227);l(p,1)二p被設(shè)置(步驟S3228);ll-p被設(shè)置(步驟S3229);并且過程去到步驟S3232。另一方面,如果在步驟S3226,標(biāo)題號(hào)碼p的邏輯元素等同于標(biāo)題號(hào)碼q的邏輯元素(步驟S3226:是),則遞增標(biāo)題號(hào)碼q(步驟S3230),并且判定是否滿足q《pmax(步驟S3231),其中pmax是標(biāo)題的數(shù)目。如果滿足q《pmax(步驟S3231:是),則過程回到步驟S3225。如果不滿足q《pmax(步驟S3231:否),則遞增標(biāo)題號(hào)碼p(步驟S3232)并且判定是否滿足p《pmax(步驟S3233)。如果滿足p《pmax(步驟S3233:是),則過程回到步驟S3224;如果不滿足p《pmax(步驟S3233:否),則目標(biāo)元素提取處理終止。圖33是詳細(xì)示出最小方差選擇處理(步驟S3016)的流程圖。如圖33所示,最小方差值min被設(shè)置為min:O(步驟S3301);最小方差候選號(hào)碼min—n=0被設(shè)置(步驟S330),并且(N+l)片段候選的候選號(hào)碼11被設(shè)置為11=1(步驟S3303)。判定同時(shí)實(shí)現(xiàn)候選計(jì)數(shù)tbl_max(n)是否是tbl_max(n)>0(步驟S3340)。如果不滿足tb1—max(n)〉0(步驟S3304:否),則過程去到步驟S3308。另一方面,如果滿足tbl—max(n)>0(步驟S3304:是),則判定最小方差值min是否為min>var(n)(步驟S3305)。如果不滿足min〉var(n)(步驟S3305:否),則過程去到步驟S3308。如果滿足min>var(n)(步驟S3305:是),則最小方差值min被設(shè)置為min=var(n)(步驟S3306),并且最小方差候選號(hào)碼min—n被設(shè)置為1^11_11=11(步驟S3307)。在遞增n之后(步驟S3308),判定是否滿足n《nmax(步驟S3009),其中nmax是(N+l)片段集合候選計(jì)數(shù)。如果滿足n《nmax(步驟S3309:是),則過程回到步驟S3304。如果不滿足n《nmax(步驟S3309:否),則過程去到步驟S3017。圖34A和34B是三片段集合候選的組合的另一評(píng)估示例的示意圖。雖然如圖29所示,通過獲得標(biāo)題單詞候選和數(shù)據(jù)單詞候選的中心之間的距離來將具有較小方差的(N+l)片段集合候選選擇為適當(dāng)?shù)?N+l)片段集合候選,但是圖34所示的評(píng)估是通過比較包括標(biāo)題單詞候選的外接矩形和數(shù)據(jù)單詞候選的外接矩形的外接矩形的形狀而不是中心之間的距離,從而來執(zhí)行的。圖34A示出了三片段集合候選28B和28C的組合的評(píng)估示例,圖34B示出了三片段集合候選28D和28E的組合的評(píng)估示例。為三片段集合候選28B至28E獲取的外接矩形分別是rb、rc、rd和re。如圖34A所示,外接矩形rb和rc的面積是等同的(外接矩形之間的方差較小),而如圖29B所示,外接矩形db和de的面積是不同的(外接矩形之間的方差較大)。因此,三片段集合候選28B和28C被選擇為適當(dāng)?shù)娜渭虾蜻x。當(dāng)實(shí)際選擇適當(dāng)?shù)娜渭虾蜻x時(shí),選擇在外接矩形之間具有較小方差的三片段集合候選。圖35是詳細(xì)示出數(shù)據(jù)單詞候選評(píng)估處理(步驟S608)的另一過程的流程圖。在圖35的流程圖中,圖30的流程圖的步驟S3013被步驟S3513所替換,其他步驟與圖30的相同。在步驟S3513,執(zhí)行矩形方差計(jì)算處理。圖36是詳細(xì)示出圖35所示的矩形方差計(jì)算處理(步驟S3515)的流程圖。如圖36所示,表示平均值的變量"a"被設(shè)置為a=0(步驟S3601);表示方差的變量"b"被設(shè)置為b:0(步驟S3602);并且同時(shí)實(shí)現(xiàn)候選的號(hào)碼k被設(shè)置為k二1(步驟S3603)。搜索與其他同時(shí)實(shí)現(xiàn)候選不同的單詞候選(步驟S3604)。然后,計(jì)算包括第k個(gè)同時(shí)實(shí)現(xiàn)候選的標(biāo)題單詞候選和數(shù)據(jù)單詞候選的外接矩形。具體而言,計(jì)算左上x坐標(biāo)sx=MIN(hsx,dsx)(步驟S3605),其中hsx表示標(biāo)題單詞候選的左上x坐標(biāo)值,dsx表示數(shù)據(jù)單詞候選的左上x坐標(biāo)值。類似地,計(jì)算左上y坐標(biāo)sy=MIN(hsy,dsy)(步驟S3606),其中hsy表示標(biāo)題單詞候選的左上y坐標(biāo)值,dsy表示數(shù)據(jù)單詞候選的左上y坐標(biāo)值。計(jì)算右下x坐標(biāo)ex=MIN(hex,dex)(步驟S3607),其中hex表示標(biāo)題單詞候選的右下x坐標(biāo)值,dex表示數(shù)據(jù)單詞候選的右下x坐標(biāo)值。類似地,計(jì)算右下y坐標(biāo)ey=MIN(hey,dey)(步驟S3608),其中hey表示標(biāo)題單詞候選的右下y坐標(biāo)值,dey表示數(shù)據(jù)單詞候選的右下y坐標(biāo)值。計(jì)算外接矩形的面積S(S=(ex-sx)X(ey-sy))(步驟S3609)。計(jì)算出的面積S被添加到表示平均值的變量a以更新變量a(步驟53610);面積S的平方被添加到表示方差的變量b以更新變量b(步驟53611);并且同時(shí)實(shí)現(xiàn)候選的號(hào)碼k被遞增(步驟S3612)。判定是否滿足k《j(步驟S3613)。如果滿足k《j(步驟S3613:是),則過程回到步驟S3605。如果不滿足k《j(步驟S3613:否),則變量a被存儲(chǔ)以作為平均值(步驟S3614),并且變量b被存儲(chǔ)以作為方差(步驟S3615)。這導(dǎo)致矩形方差計(jì)算處理的終止,并且過程去到步驟S3014。根據(jù)數(shù)據(jù)單詞候選評(píng)估部件507,如果存在標(biāo)題單詞候選和數(shù)據(jù)單詞候選的多個(gè)組合,則可以識(shí)別適當(dāng)?shù)慕M合,并且可以在表單的邏輯結(jié)構(gòu)分析中實(shí)現(xiàn)更高的準(zhǔn)確度。圖37是根據(jù)實(shí)施例的邏輯結(jié)構(gòu)分析裝置的硬件配置的示意圖。如圖37所示,邏輯結(jié)構(gòu)分析裝置500包括計(jì)算機(jī)3710、輸入設(shè)備3720和輸出設(shè)備3730,并且可通過路由器或調(diào)制解調(diào)器(未示出)連接到諸如LAN或WAN之類的網(wǎng)絡(luò)3740。計(jì)算機(jī)3710具有CPU、存儲(chǔ)器和接口。CPU負(fù)責(zé)邏輯結(jié)構(gòu)分析裝置500的整體控制。存儲(chǔ)器由ROM、RAM、HD、光盤3711和閃存構(gòu)成。存儲(chǔ)器用作CPU的工作區(qū)域。存儲(chǔ)器中存儲(chǔ)有各種程序,這些程序根據(jù)來自CPU的指令被加載。對(duì)HD和光盤3711的數(shù)據(jù)讀取/寫入由盤驅(qū)動(dòng)器來控制。光盤3711和閃存可被從計(jì)算機(jī)3710去除。接口控制來自輸入設(shè)備3720的輸入、到輸出設(shè)備3730的輸出以及通過網(wǎng)絡(luò)3740的發(fā)送/接收。輸入設(shè)備3720包括鍵盤3721、鼠標(biāo)3722、掃描儀3723,等等。鍵盤3721包括用于輸入字符、數(shù)字字符、各種指令等等的鍵,用于數(shù)據(jù)的輸入。可以使用觸摸板。鼠標(biāo)3722移動(dòng)光標(biāo)、選擇區(qū)域,或者移動(dòng)窗口或調(diào)整窗口大小,等等。掃描儀3723以光學(xué)方式讀取圖像。讀取的圖像被捕捉和存儲(chǔ)在計(jì)算機(jī)3710的存儲(chǔ)器中,作為圖像數(shù)據(jù)。掃描儀3723可具有光學(xué)字符識(shí)別(OCR)功能。輸出設(shè)備3730包括顯示器3731、揚(yáng)聲器3732、打印機(jī)3733,等等。打印機(jī)1513打印圖像數(shù)據(jù)和文檔數(shù)據(jù)。顯示器3731顯示光標(biāo)、圖標(biāo)或工具框,以及諸如文檔、圖像和功能信息之類的數(shù)據(jù)。揚(yáng)聲器輸出諸如聲音效果和閱讀語音之類的聲音。打印機(jī)3733打印圖像數(shù)據(jù)和文檔數(shù)據(jù)。在本實(shí)施例中說明的方法可由諸如個(gè)人計(jì)算機(jī)和工作站之類的執(zhí)行預(yù)先準(zhǔn)備的程序的計(jì)算機(jī)來實(shí)現(xiàn)。程序被記錄在諸如硬盤、柔性盤、CD-ROM、MO和DVD之類的計(jì)算機(jī)可讀記錄介質(zhì)上,并且通過被計(jì)算機(jī)從記錄介質(zhì)讀出而被執(zhí)行。程序可以是能夠通過諸如因特網(wǎng)之類的網(wǎng)絡(luò)分發(fā)的傳輸介質(zhì)。根據(jù)上述實(shí)施例,可以讀取具有各種布局的表單,以唯一地標(biāo)識(shí)多個(gè)標(biāo)題和由標(biāo)題標(biāo)識(shí)的數(shù)據(jù),并且可以自動(dòng)分析表單的邏輯結(jié)構(gòu)。如果已確定集合候選包括含糊的標(biāo)題群組,則可根據(jù)表單上的數(shù)據(jù)和含糊標(biāo)題群組的相對(duì)位置來識(shí)別適當(dāng)?shù)臉?biāo)題,以唯一地識(shí)別標(biāo)題和由標(biāo)題標(biāo)識(shí)的數(shù)據(jù)。類似地,如果己確定集合候選包括含糊的標(biāo)題群組和含糊的數(shù)據(jù)群組,則可以根據(jù)已確定集合候選中的含糊數(shù)據(jù)和含糊標(biāo)題的相對(duì)位置來識(shí)別數(shù)據(jù)和標(biāo)題的適當(dāng)組合,以唯一地標(biāo)識(shí)標(biāo)題和由標(biāo)題標(biāo)識(shí)的數(shù)據(jù)。雖然已經(jīng)針對(duì)具體實(shí)施例描述了本發(fā)明以便進(jìn)行完整和清楚的公開,但是所附權(quán)利要求并不受此限制,而是應(yīng)當(dāng)被解釋為包含了本領(lǐng)域的技術(shù)人員可以想到的、完全落入這里闡述的基本教導(dǎo)之內(nèi)的所有修改和替換。本申請(qǐng)基于2007年10月31日提交的在先日本專利申請(qǐng)No.2007-283916并要求其優(yōu)先權(quán),該在先申請(qǐng)的全部內(nèi)容能夠引用被并入在此。權(quán)利要求1.一種計(jì)算機(jī)可讀記錄介質(zhì),其中存儲(chǔ)有邏輯結(jié)構(gòu)分析計(jì)算機(jī)程序,該邏輯結(jié)構(gòu)分析計(jì)算機(jī)程序使得計(jì)算機(jī)執(zhí)行從包括一個(gè)或多個(gè)標(biāo)題和一個(gè)或多個(gè)數(shù)據(jù)項(xiàng)的表單上的字符串中提取單位單詞候選;將每個(gè)所述單詞候選分類成針對(duì)所述標(biāo)題的標(biāo)題候選的群組和針對(duì)所述數(shù)據(jù)項(xiàng)的數(shù)據(jù)候選的群組,以基于所述單詞候選在所述表單上的位置,生成第一候選集合,每個(gè)所述第一候選集合包括所述標(biāo)題候選中的一個(gè)標(biāo)題候選和所述數(shù)據(jù)候選中可由所包括的標(biāo)題候選所標(biāo)識(shí)的一個(gè)數(shù)據(jù)候選;組合所述第一候選集合,以生成第二候選集合,使得每一個(gè)包括多個(gè)不同的標(biāo)題候選和所述數(shù)據(jù)候選中的一個(gè)數(shù)據(jù)候選;從所述第二候選集合中,針對(duì)每個(gè)所述數(shù)據(jù)項(xiàng),去除包括所述數(shù)據(jù)項(xiàng)中的一數(shù)據(jù)項(xiàng)和標(biāo)識(shí)該數(shù)據(jù)項(xiàng)的標(biāo)題的已確定集合,該去除是基于每個(gè)所述第二候選集合中包括的標(biāo)題候選和數(shù)據(jù)單詞候選在所述表單上的位置的;以及輸出所述已確定集合。2.如權(quán)利要求1所述的計(jì)算機(jī)可讀記錄介質(zhì),還包括在所述已確定集合中有第一集合和第二集合時(shí)評(píng)估標(biāo)題候選,其中該第一集合包括一數(shù)據(jù)項(xiàng)和標(biāo)識(shí)該數(shù)據(jù)項(xiàng)的標(biāo)題,并且在該第二集合中,在標(biāo)題中有單個(gè)標(biāo)題的位置與所述第一集合的標(biāo)題不同,其中所述評(píng)估包括基于所述單個(gè)標(biāo)題的位置和所述數(shù)據(jù)的位置來選擇所述第一集合或所述第二集合作為適當(dāng)?shù)囊汛_定集合,并且所述輸出包括輸出所述適當(dāng)?shù)囊汛_定集合。3.如權(quán)利要求2所述的計(jì)算機(jī)可讀記錄介質(zhì),其中所述評(píng)估包括基于所述單個(gè)標(biāo)題在所述表單上相對(duì)于所述數(shù)據(jù)的位置來選擇所述適當(dāng)?shù)募捍_定集合。4.如權(quán)利要求2所述的計(jì)算機(jī)可讀記錄介質(zhì),其中所述評(píng)估包括基于包圍所述數(shù)據(jù)和所述單個(gè)標(biāo)題的區(qū)域的面積來選擇所述適當(dāng)?shù)囊汛_定集5.如權(quán)利要求1所述的計(jì)算機(jī)可讀記錄介質(zhì),還包括在所述已確定集合包括多個(gè)所述數(shù)據(jù)項(xiàng)、標(biāo)識(shí)所述數(shù)據(jù)項(xiàng)的第一標(biāo)題和在數(shù)目上等同于所述數(shù)據(jù)項(xiàng)并且可由所述數(shù)據(jù)項(xiàng)標(biāo)識(shí)的多個(gè)第二標(biāo)題時(shí),評(píng)估數(shù)據(jù)候選,其中所述評(píng)估包括通過基于所述數(shù)據(jù)項(xiàng)和所述第二標(biāo)題的組合中的數(shù)據(jù)項(xiàng)和第二標(biāo)題的相對(duì)位置比較所述組合,來從所述組合中選擇適當(dāng)?shù)募捍_定集合,并且所述輸出包括輸出所述適當(dāng)?shù)囊汛_定集合。6.如權(quán)利要求5所述的計(jì)算機(jī)可讀記錄介質(zhì),其中所述評(píng)估包括通過比較所述組合中的數(shù)據(jù)項(xiàng)和第二標(biāo)題之間的距離來選擇適當(dāng)?shù)募捍_定集合。7.如權(quán)利要求5所述的計(jì)算機(jī)可讀記錄介質(zhì),其中所述評(píng)估包括通過比較分別包圍所述組合中的數(shù)據(jù)項(xiàng)和第二標(biāo)題的面積來選擇適當(dāng)?shù)募捍_定8.—種邏輯結(jié)構(gòu)分析裝置,包括提取部件,該提取部件從包括一個(gè)或多個(gè)標(biāo)題和一個(gè)或多個(gè)數(shù)據(jù)項(xiàng)的表單上的字符串中提取單詞候選;第一生成部件,該第一生成部件將每個(gè)所述單詞候選分類成針對(duì)所述標(biāo)題的標(biāo)題候選的群組和針對(duì)所述數(shù)據(jù)項(xiàng)的數(shù)據(jù)候選的群組,以基于所述單詞候選在所述表單上的位置,生成第一候選集合,每個(gè)所述第一候選集合包括所述標(biāo)題候選中的一個(gè)標(biāo)題候選和所述數(shù)據(jù)候選中可由所包括的標(biāo)題候選所標(biāo)識(shí)的一個(gè)數(shù)據(jù)候選;第二生成部件,該第二生成部件組合所述第一候選集合,以生成第二候選集合,使得每一個(gè)包括多個(gè)不同的標(biāo)題候選和所述數(shù)據(jù)候選中的一個(gè)數(shù)據(jù)候選;去除部件,該去除部件針對(duì)每個(gè)所述數(shù)據(jù)項(xiàng),基于每個(gè)所述第二候選集合中包括的標(biāo)題候選和數(shù)據(jù)單詞候選在所述表單上的位置,從所述第二候選集合中去除包括所述數(shù)據(jù)項(xiàng)中的一數(shù)據(jù)項(xiàng)和標(biāo)識(shí)該數(shù)據(jù)項(xiàng)的標(biāo)題的已確定集合;以及輸出部件,該輸出部件輸出所述已確定集合。9.一種邏輯結(jié)構(gòu)分析方法,包括從包括一個(gè)或多個(gè)標(biāo)題和一個(gè)或多個(gè)數(shù)據(jù)項(xiàng)的表單上的字符串中提取單位單詞候選;將每個(gè)所述單詞候選分類成針對(duì)所述標(biāo)題的標(biāo)題候選的群組和針對(duì)所述數(shù)據(jù)項(xiàng)的數(shù)據(jù)候選的群組,以基于所述單詞候選在所述表單上的位置,生成第一候選集合,每個(gè)所述第一候選集合包括所述標(biāo)題候選中的一個(gè)標(biāo)題候選和所述數(shù)據(jù)候選中可由所包括的標(biāo)題候選所標(biāo)識(shí)的一個(gè)數(shù)據(jù)候選;組合所述第一候選集合,以生成第二候選集合,使得每一個(gè)包括多個(gè)不同的標(biāo)題候選和所述數(shù)據(jù)候選中的一個(gè)數(shù)據(jù)候選;從所述第二候選集合中,針對(duì)每個(gè)所述數(shù)據(jù)項(xiàng),去除包括所述數(shù)據(jù)項(xiàng)中的一數(shù)據(jù)項(xiàng)和標(biāo)識(shí)該數(shù)據(jù)項(xiàng)的標(biāo)題的已確定集合,該去除是基于每個(gè)所述第二候選集合中包括的標(biāo)題候選和數(shù)據(jù)單詞候選在所述表單上的位置的;以及輸出所述已確定集合。全文摘要本發(fā)明提供了邏輯結(jié)構(gòu)分析裝置、方法和計(jì)算機(jī)產(chǎn)品。一種邏輯結(jié)構(gòu)分析裝置包括提取部件,其從表單提取單詞候選;第一生成部件,其將每個(gè)單詞候選分類成標(biāo)題候選的群組和數(shù)據(jù)候選的群組,以基于單詞候選在表單上的位置,生成第一候選集合,每個(gè)第一候選集合包括一個(gè)標(biāo)題候選和可由該標(biāo)題候選標(biāo)識(shí)的一個(gè)數(shù)據(jù)候選;第二生成部件,其組合第一候選集合,以生成第二候選集合,使得每一個(gè)包括多個(gè)不同的標(biāo)題候選和一個(gè)數(shù)據(jù)候選;去除部件,其基于每個(gè)第二候選集合中的標(biāo)題候選和數(shù)據(jù)單詞候選的位置,從第二候選集合中去除包括一數(shù)據(jù)項(xiàng)和標(biāo)識(shí)該數(shù)據(jù)項(xiàng)的標(biāo)題的已確定集合;以及輸出部件,其輸出已確定集合。文檔編號(hào)G06K9/00GK101425131SQ20081014588公開日2009年5月6日申請(qǐng)日期2008年8月18日優(yōu)先權(quán)日2007年10月31日發(fā)明者堀田悅伸,皆川明洋,藤井勇作,藤本克仁申請(qǐng)人:富士通株式會(huì)社