專利名稱::信息處理裝置和信息處理方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及信息處理裝置和信息處理方法。
背景技術(shù):
:日本特許第3578618號公報(專利文獻I)公開了一種文檔分割裝置,該文檔分割裝置通過不僅考慮相鄰文檔的關(guān)系而且考慮與該文檔相關(guān)聯(lián)的廣域的關(guān)系來實現(xiàn)有效分割文檔的目標(biāo),并且該文檔分割裝置設(shè)置有:語言要素分出單元,該語言要素分出單元用于以段落、句子以及行為單位從電子文檔中分出語言要素;語言要素間關(guān)聯(lián)度評估單元,該語言要素間關(guān)聯(lián)度評估單元用于評估任何兩個語言要素(例如,具有公共字符或者單詞)的關(guān)聯(lián)度;語言要素間關(guān)聯(lián)度矩陣取得單元,該語言間要素關(guān)聯(lián)矩陣取得單元通過利用這種語言要素間關(guān)聯(lián)度評估單元來取得全部語言要素的關(guān)聯(lián)度;以及矩陣拆分單元,該矩陣拆分單元用于將這種語言要素間關(guān)聯(lián)度矩陣取得單元提供的語言要素間關(guān)聯(lián)度矩陣分割為具有高關(guān)聯(lián)度的部分矩陣的排列。由此,可以與通過部分矩陣進行的拆分相應(yīng)地來拆分文檔。日本特許第3767180號公報(專利文獻2)公開了一種用于分析文檔結(jié)構(gòu)的方法和裝置、以及存儲文檔結(jié)構(gòu)分析程序的存儲介質(zhì),其目標(biāo)在于即使當(dāng)不包括項目標(biāo)記或者未寫有特定標(biāo)記等時也可以通過使用每個字符串的長度或者行首的位置信息來分析標(biāo)記項目和文本中的簡單句的文檔結(jié)構(gòu),其中,輸入待分析的文檔,檢查在所述文檔的行首上是否存在引用符,當(dāng)存在引用符時,刪除該引用符,檢測特定項目標(biāo)記所要使用的包括文檔中的日期、場所、期限的字符串,并且基于檢測到的項目標(biāo)記的特征來檢測任意項目標(biāo)記,將檢測到所述項目標(biāo)記的行的行首位置和未檢測到項目標(biāo)記的后續(xù)行的行首位置指定為項目范圍,后續(xù)行與被判斷為項目范圍以外的行相連接,以句子為單位分割各行,將特定項目、任意項目以及指示句子的標(biāo)簽附加至文檔并輸出。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種信息處理裝置,該信息處理裝置在將文檔中的區(qū)域分割為段落區(qū)域或者項目區(qū)域的情況下,在指示項目的字符與預(yù)定的字符不同時可以抑制錯誤分割。根據(jù)本發(fā)明的第一方面,提供了一種信息處理裝置,該信息處理裝置包括:取得單元,該取得單元取得區(qū)域信息、行信息以及字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與區(qū)域中的行有關(guān)的信息,以及字符信息是與行中的字符有關(guān)的信息;判斷單元,該判斷單元基于所述取得單元取得的行信息來判斷包括該行信息所指示的行的區(qū)域是否左對齊;第一分割單元,該第一分割單元基于所述取得單元取得的字符信息,將包括該字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項目區(qū)域;分析單元,該分析單元分析所述判斷單元判斷為左對齊的區(qū)域內(nèi)的行的縮進;第二分割單元,該第二分割單元基于所述分析單元的分析結(jié)果將所述判斷單元判斷為左對齊的所述區(qū)域分割為段落區(qū)域或者項目區(qū)域;以及輸出單元,該輸出單元針對所述判斷單元判斷為未左對齊的區(qū)域,輸出所述第一分割單元的分割結(jié)果,而針對所述判斷單元判斷為左對齊的區(qū)域,輸出所述第二分割單兀的分iiij結(jié)果。根據(jù)本發(fā)明的第二方面,在根據(jù)第一方面的信息處理裝置中,當(dāng)作為對象的語言是沒有規(guī)定行尾對齊的語言時,所述判斷單元可基于與行信息所指示的行的下一行中的字符有關(guān)的字符信息來改變該行信息,隨后可以判斷包括該行信息指示的所述行的區(qū)域是否左對齊。根據(jù)本發(fā)明的第三方面,在根據(jù)第一或者第二方面的信息處理裝置中,所述判斷單元可基于所述取得單元所取得的行信息,來計算所述行信息所指示的行的中點坐標(biāo),并且可以基于以下坐標(biāo)中的一個或者更多個坐標(biāo)來判斷所述區(qū)域是否左對齊:所述區(qū)域中的所述行的行首坐標(biāo)、所述中點坐標(biāo)以及行尾坐標(biāo)。根據(jù)本發(fā)明的第四方面,在根據(jù)第一方面至第三方面中的任一方面的信息處理裝置中,所述第一分割單元可基于位于行首或者行尾中的一個以上字符的字符串是否滿足預(yù)定的字符串條件,來將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。根據(jù)本發(fā)明的第五方面,在根據(jù)第一方面至第四方面中的任一方面的信息處理裝置中,所述第一分割單元可以基于由所述區(qū)域中的行的字符數(shù)量所預(yù)定的值是否滿足預(yù)定條件,來將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。根據(jù)本發(fā)明的第六方面,在根據(jù)第一方面至第五方面的任一方面的信息處理裝置中,所述分析單元可以通過基于從區(qū)域左端至該區(qū)域中各行的左端之間的距離,將各行分類為縮進行和未縮進行,來分析行的縮進。根據(jù)本發(fā)明的第七方面,在根據(jù)第六方面的信息處理裝置中,第二分割單元可以基于行中包括的字符串中是否包括預(yù)定字符串以及作為所述分析單元的分析結(jié)果的分類邊界是否與所述段落的邊界重合,來將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。根據(jù)本發(fā)明的第八方面,提供了一種信息處理裝置,該信息處理裝置包括:取得單元,該取得單元取得區(qū)域信息、行信息和字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與所述區(qū)域中的行有關(guān)的信息,該字符信息是與所述行中的字符有關(guān)的信息;判斷單元,該判斷單元基于所述取得單元所取得的行信息來判斷包括所述行信息所指示的行的區(qū)域是否上對齊;第一分割單元,該第一分割單元基于所述取得單元所取得的字符信息,將包括所述字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項目區(qū)域;分析單元,該分析單元分析所述判斷單元判斷為上對齊的區(qū)域內(nèi)的行的縮進;第二分割單元,該第二分割單元基于所述分析單元的分析結(jié)果將所述判斷單元判斷為上對齊的所述區(qū)域分割為段落區(qū)域或者項目區(qū)域;以及輸出單元,該輸出單元針對所述判斷單元判斷為未上對齊的區(qū)域,輸出所述第一分割單元的分割結(jié)果,而針對所述判斷單元判斷為上對齊的區(qū)域,輸出所述第二分割單元的分割結(jié)果。根據(jù)本發(fā)明的第九方面,在根據(jù)第八方面的信息處理裝置中,當(dāng)作為對象的語言是沒有規(guī)定行尾對齊的語言時,所述判斷單元可以基于與行信息指示的行的下一行中的字符有關(guān)的字符信息來改變該行信息,隨后可以判斷包括該行信息指示的所述行的區(qū)域是否上對齊。根據(jù)本發(fā)明的第十方面,在根據(jù)第八方面或者第九方面的信息處理裝置中,所述判斷單元可以基于所述取得單元所取得的行信息,來計算所述行信息所指示的行的中點坐標(biāo),并且可以基于以下坐標(biāo)中的一個或者更多個坐標(biāo)來判斷所述區(qū)域是否上對齊:所述區(qū)域中的所述行的行首坐標(biāo)、所述中點坐標(biāo)以及行尾坐標(biāo)。根據(jù)本發(fā)明的第十一方面,在根據(jù)第八方面至第十方面中的任一方面的信息處理裝置中,所述第一分割單元可以基于位于行首或者行尾中的一個以上字符的字符串是否滿足預(yù)定的字符串條件,來將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。根據(jù)本發(fā)明的第十二方面,在根據(jù)第八方面至第十一方面中的任一方面的信息處理裝置中,所述第一分割單元可基于由所述區(qū)域中的行的字符數(shù)所預(yù)定的值是否滿足預(yù)定條件,來將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。根據(jù)本發(fā)明的第十三方面,在根據(jù)第八方面至第十二方面的任一方面的信息處理裝置中,所述分析單元可以通過基于從區(qū)域上端至該區(qū)域中各行的上端之間的距離,將各行分類為縮進行和未縮進行,來分析行的縮進。根據(jù)本發(fā)明的第十四方面,在根據(jù)第十三方面的信息處理裝置中,第二分割單元可基于行中包括的字符串中是否包括預(yù)定字符串以及作為所述分析單元的分析結(jié)果的分類邊界是否與所述段落的邊界重合,來將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。根據(jù)本發(fā)明的第十五方面,提供了一種信息處理方法,該信息處理方法包括:取得步驟,取得區(qū)域信息、行信息和字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與所述區(qū)域中的行有關(guān)的信息,該字符信息是與所述行中的字符有關(guān)的信息;判斷步驟,基于所述取得步驟所取得的行信息,判斷包括所述行信息所指示的行的區(qū)域是否左對齊;第一分割步驟,基于所述取得步驟所取得的字符信息,將包括所述字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項目區(qū)域;分析步驟,分析所述判斷步驟判斷為左對齊的區(qū)域內(nèi)的行的縮進;第二分割步驟,基于所述分析步驟的分析結(jié)果,將所述判斷步驟判斷為左對齊的區(qū)域分割為段落區(qū)域或者項目區(qū)域;以及輸出步驟,針對所述判斷步驟判斷為未左對齊的區(qū)域,輸出所述第一分割步驟的分割結(jié)果,而針對所述判斷步驟判斷為左對齊的區(qū)域,輸出所述第二分割步驟的分割結(jié)果。根據(jù)本發(fā)明的第十六方面,提供了一種信息處理方法,該信息處理方法包括:取得步驟,取得區(qū)域信息、行信息和字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與所述區(qū)域中的行有關(guān)的信息,該字符信息是與所述行中的字符有關(guān)的信息;判斷步驟,基于所述取得步驟所取得的行信息,判斷包括所述行信息所指示的行的區(qū)域是否上對齊;第一分割步驟,基于所述取得步驟所取得的字符信息,將包括所述字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項目區(qū)域;分析步驟,分析所述判斷步驟判斷為上對齊的區(qū)域內(nèi)的行的縮進;第二分割步驟,基于所述分析步驟的分析結(jié)果,將所述判斷步驟判斷為上對齊的所述區(qū)域分割為段落區(qū)域或者項目區(qū)域;以及輸出步驟,針對所述判斷步驟判斷為未上對齊的區(qū)域,輸出所述第一分割步驟的分割結(jié)果,而針對所述判斷步驟判斷為上對齊的區(qū)域,輸出所述第二分割步驟的分割結(jié)果。根據(jù)本發(fā)明的第一、第十五以及第十六方面,在將文檔中的區(qū)域分割為段落區(qū)域或者項目區(qū)域的情況下,可以在指示項目的字符與預(yù)定字符不同時,抑制錯誤分割。根據(jù)本發(fā)明的第二方面,可以根據(jù)語言的特點來判斷區(qū)域是否左對齊。根據(jù)本發(fā)明的第三方面,可以基于行的行首坐標(biāo)、中點坐標(biāo)、以及行尾坐標(biāo)三者中的一個或者更多個來判斷區(qū)域是否左對齊。根據(jù)本發(fā)明的第四方面,可以基于位于行首或者行尾中的一個以上字符的字符串是否滿足預(yù)定的字符串條件,來將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。根據(jù)本發(fā)明的第五方面,可以基于由區(qū)域中的行的字符數(shù)所預(yù)定的值是否滿足預(yù)定的條件,來將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。根據(jù)本發(fā)明的第六方面,可以通過基于從區(qū)域左端至該區(qū)域中各行的左端之間的距離,將各行分類為縮進行和未縮進行,來分析行的縮進。根據(jù)本發(fā)明的第七方面,可以基于行中包括的字符串中是否包括預(yù)定的字符串以及所述分類的邊界與所述段落的邊界是否重合,來將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。根據(jù)本發(fā)明的八方面,在將文檔中的區(qū)域分割為段落區(qū)域或者項目區(qū)域的情況下,可以在指示項目的字符與預(yù)定的字符不同時,抑制錯誤分割。根據(jù)本發(fā)明的第九方面,可以根據(jù)語言的特點來判斷區(qū)域是否上對齊。根據(jù)本發(fā)明的第十方面,可以基于行的行首坐標(biāo)、中點坐標(biāo)、以及行尾坐標(biāo)三者中的一個或者更多個來判斷區(qū)域是否上對齊。根據(jù)本發(fā)明的第十一方面,可以基于位于行首或者行尾中的一個以上字符的字符串是否滿足預(yù)定的字符串條件,來將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。根據(jù)本發(fā)明的第十二方面,可以基于由區(qū)域中的行的字符數(shù)所預(yù)定的值是否滿足預(yù)定條件,來將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。根據(jù)本發(fā)明的第十三方面,可以通過基于從區(qū)域上端至該區(qū)域中各行的上端之間的距離,將各行分類為縮進行和未縮進行,來分析行的縮進。根據(jù)本發(fā)明的第十四方面,可以基于行中包括的字符串中是否包括預(yù)定字符串以及所述分類的邊界與所述段落的邊界是否重合,來將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域?;谝韵赂綀D詳細描述本發(fā)明的示例性實施方式,在附圖中:圖1是關(guān)于示例性實施方式的構(gòu)造示例的概念模塊構(gòu)造圖;圖2是例示出根據(jù)第二示例性實施方式的處理示例的流程圖;圖3是例示出由布局信息取得模塊取得的信息的數(shù)據(jù)結(jié)構(gòu)示例的示圖;圖4是例示出由布局信息取得模塊取得的信息示例的示圖;圖5是例示出由行對齊判斷模塊執(zhí)行的處理示例的示圖;圖6是例示出由行對齊判斷模塊執(zhí)行的處理示例的示圖;圖7是例示出由行對齊判斷模塊執(zhí)行的處理示例的示圖8是例示出由行對齊判斷模塊執(zhí)行的處理示例的流程圖;圖9是例示出由行對齊判斷模塊執(zhí)行的處理示例的示圖;圖1O是例示出由行對齊判斷模塊執(zhí)行的處理示例的示圖;圖11是例示出由段落和項目判斷模塊A執(zhí)行的處理示例的示圖;圖12是例示出由縮進分析模塊執(zhí)行的處理示例的示圖;圖13是例示出由縮進分析模塊執(zhí)行的處理示例的示圖;圖14A和圖14B是例示出由段落和項目判斷模塊B執(zhí)行的處理示例的示圖;圖15A和圖15B是例示出由段落和項目判斷模塊B執(zhí)行的處理示例的示圖;圖16A和圖16B是例示出根據(jù)示例性實施方式的處理示例的示圖;以及圖17是例示出用于實現(xiàn)示例性實施方式的計算機硬件的構(gòu)造示例的框圖。具體實施例方式下面將參照附圖來描述用于實施本發(fā)明的示例性實施方式。圖1是關(guān)于示例性實施方式的構(gòu)造示例的概念模塊構(gòu)造圖。此外,模塊表示通常邏輯劃分的諸如軟件(計算機程序)和硬件的部件。因此,本示例性實施方式中的模塊不僅表示計算機程序中的模塊,還表示硬件構(gòu)造中的模塊。因此,示例性實施方式還包括用于使計算機起到模塊的作用的計算機程序(使計算機執(zhí)行各處理的程序、使計算機起到各單元的作用的程序、或使計算機實現(xiàn)各功能的程序)、系統(tǒng)以及方法的描述。然而,為了便于描述,雖然使用術(shù)語“存儲”或者“進行存儲”以及等同術(shù)語,但這些術(shù)語表示在示例性實施方式是計算機程序的情況下,存儲在存儲裝置中,或者進行控制以存儲在所述存儲裝置中。此外,模塊可與功能一對一對應(yīng)。在安裝時,單個程序可以構(gòu)成單個模塊,單個程序可以構(gòu)成多個模塊,或者反之單個模塊可以由多個程序構(gòu)成。此外,可以由單臺計算機執(zhí)行多個模塊,或者利用分布式或者并行環(huán)境下的計算機可以由多個計算機執(zhí)行單個模塊。另外,單個模塊可包括其它模塊。下文中,術(shù)語“連接”不僅用于物理連接的情況,還用于邏輯連接的情況(數(shù)據(jù)收發(fā)、指示、數(shù)據(jù)間的引用關(guān)系等)。術(shù)語“預(yù)定”表示在作為對象的處理之前定義的,并且通常包括根據(jù)那時的環(huán)境或者狀態(tài)或者根據(jù)目前的環(huán)境或者狀態(tài)進行定義的意思,包括根據(jù)本示例性實施方式的處理尚未開始的狀態(tài),即使在根據(jù)本示例性實施方式的處理開始之后,只要作為對象的所述處理尚未執(zhí)行即可。此外,具有“在A的情況下,執(zhí)行B”的含義的短語用于表示“判斷是否存在A,如果判斷出存在A,則執(zhí)行B”。然而,排除關(guān)于是否存在A的判斷不必要的情況。此外,系統(tǒng)或者裝置不僅包括將多個計算機、多件硬件、多個裝置等構(gòu)成為經(jīng)由諸如網(wǎng)絡(luò)的通信單元彼此連接(包括一一對應(yīng)的通信連接)的情況,還包括由單個計算機、單件硬件、單個裝置等實現(xiàn)的情況?!把b置”和“系統(tǒng)”用作具有等同意思的術(shù)語。當(dāng)然,“系統(tǒng)”不包括僅僅是人為設(shè)置的社會“結(jié)構(gòu)”(社會系統(tǒng))。此外,針對各模塊執(zhí)行的各處理,或者針對在模塊中執(zhí)行多個處理的情況下的各處理,從存儲裝置讀取作為對象的信息,執(zhí)行處理,隨后將處理結(jié)果寫入存儲裝置。因此,存在如下情況,即可能省略了處理之前從存儲裝置進行讀取的描述和在處理之后對存儲裝置進行寫入的描述。存儲裝置在此可包括硬盤、RAM(隨機訪問存儲器)、外部存儲介質(zhì)、經(jīng)由通信線路的存儲裝置、CPU(中央處理單元)中的寄存器等。根據(jù)本示例性實施方式的信息處理裝置將文檔中的區(qū)域分割為段落區(qū)域或者項目區(qū)域,并且如圖1的示例所示,根據(jù)本示例性實施方式的信息處理裝置包括布局信息取得模塊110、行對齊判斷模塊120、段落和項目判斷模塊A130、處理變更模塊140、縮進分析模塊150、段落和項目判斷模塊B160、以及判斷結(jié)果輸出模塊170。布局信息取得模塊110連接至行對齊判斷模塊120。布局信息取得模塊110取得作為與文檔中的區(qū)域有關(guān)的信息的區(qū)域信息、作為與區(qū)域中的行有關(guān)的信息的行信息、以及作為與行中的字符有關(guān)的信息的字符信息。此外,文檔至少包括文本數(shù)據(jù)。在某些情況下,文檔是諸如圖像、運動圖像及音頻或者上述的組合的電子數(shù)據(jù);對文檔進行存儲、編輯以及搜索;文檔表示可在系統(tǒng)或者用戶之間交換的單個單位;并且包括與之類似的文檔。文檔中的區(qū)域表示:例如作掃描儀讀取的作為圖像的文檔并且通過對圖像進行分析而將文檔分割為區(qū)域。布局信息取得模塊110接收的信息與作為通過對文檔的圖像進行字符識別而識別出的結(jié)果的數(shù)據(jù)或者F1DF(PortableDocumentFormat:便攜式文檔格式)(注冊商標(biāo))相對應(yīng)。此外,存在在該區(qū)域中包括可以分割為段落區(qū)域或者項目區(qū)域的區(qū)域的情況。存在字符信息中包括錯誤字符信息的情況。例如,在通過字符識別取得字符識別結(jié)果的情況下,可能出現(xiàn)誤識別。具體來說,存在誤識別項目的先導(dǎo)字符的情況。此外,字符包括符號等。下面參照圖3和圖4描述區(qū)域信息、行信息以及字符信息的詳細示例。區(qū)域信息、行信息以及字符信息的取得,可接收在利用例如掃描儀或者攝像機讀取圖像之后(或者利用傳真經(jīng)由通信線路從外部裝置接收到圖像之后),通過結(jié)構(gòu)識別或者字符識別取得的結(jié)果。此外,可以讀取(嵌入計算機中的并且包括經(jīng)由網(wǎng)絡(luò)連接的)硬盤中存儲的區(qū)域信息、行信息以及字符信息。行對齊判斷模塊120連接至布局信息取得模塊110和段落和項目判斷模塊A130。行對齊判斷模塊120基于布局信息取得模塊110取得的行信息,判斷包括行信息所表示的行的區(qū)域是否左對齊。稍后利用圖5以及圖8至圖10的示例來描述此處理的詳細示例。行對齊判斷模塊120可以基于布局信息取得模塊110取得的行信息,來計算該行信息所表示的行的中點坐標(biāo),并且可以基于以下坐標(biāo)中的一個或者更多個來判斷區(qū)域是否左對齊:區(qū)域中的行的右端坐標(biāo)、中點坐標(biāo)以及左端坐標(biāo)。此外,行對齊判斷模塊120可以判斷區(qū)域是左對齊、居中對齊還是右對齊。在作為對象的語言是沒有規(guī)定行尾對齊的語言的情況下,行對齊判斷模塊120可以基于行信息所表示的行的下一行中的字符的字符信息,來改變行信息,隨后可以判斷包括該行信息所表示的行的區(qū)域是否左對齊。稍后利用圖6和圖7的示例來描述此處理的詳細示例。此外,在此“未規(guī)定行尾對齊的語言”是行尾一般不對齊的語言。當(dāng)然,即使在這種語言中,也可能在存在多行時有行尾碰巧對齊的情況,但是如果行尾一般不對齊,則語言相當(dāng)于“未規(guī)定行尾對齊的語言”。更具體來說,該語言對應(yīng)于英語、韓語等。另一方面,日語、中文等原則上具有對齊的行尾。此外,作為特例,在段落在行中結(jié)束的情況下,行尾不對齊,并且執(zhí)行諸如外掛(hanging)的處理,使得標(biāo)點符號不被置于行首,但是在存在多行的情況下,如果行尾一般對齊,則語言不相當(dāng)于“未規(guī)定行尾對齊的語言”。此外,“行信息的改變”指的是改變表示行信息中的行長度的信息(在水平書寫的情況下,布局信息300的寬度340,而在垂直書寫的情況下,布局信息300的高度338)??苫谧址畔⒅械淖址麃韴?zhí)行關(guān)于是否對應(yīng)于語言的判斷。例如,在語言中使用的字符代碼的范圍根據(jù)字符代碼而不同,因此可以判斷所使用的字符代碼屬于那種語言的字符代碼的范圍。此外,在預(yù)先設(shè)置語言的情況下,可以根據(jù)設(shè)置來執(zhí)行判斷。設(shè)置包括存儲有與語言相對應(yīng)的值的標(biāo)志等。段落和項目判斷模塊A130連接至行對齊判斷模塊120和處理變更模塊140。段落和項目判斷模塊A130基于布局信息取得模塊110取得的字符信息,將包括該字符信息所表示的字符的區(qū)域分割為段落或者項目區(qū)域。稍后利用圖11的示例來描述此處理的詳細示例。通過段落和項目判斷模塊B160針對段落和項目判斷模塊A130的分割結(jié)果執(zhí)行分割處理,取得判斷結(jié)果輸出模塊170輸出的段落和項目判斷模塊B160的分割結(jié)果。段落和項目判斷模塊A130基于位于行首或者行尾的一個以上字符的字符串是否滿足預(yù)定字符串條件,可以將區(qū)域分割為段落區(qū)域或者項目區(qū)域。此外,字符串不僅包括多個字符的情況,還包括單個字符的情況。此外,段落和項目判斷模塊A130可以基于作為區(qū)域中的行的字符數(shù)而預(yù)定的值是否滿足預(yù)定條件,將區(qū)域分割為段落區(qū)域或者項目區(qū)域。處理變更模塊140連接至段落和項目判斷模塊A130、縮進分析模塊150、以及判斷結(jié)果輸出模塊170。處理變更模塊140將行對齊判斷模塊120判斷為左對齊的區(qū)域的區(qū)域信息、行信息和字符信息發(fā)送至縮進分析模塊150。此外,段落和項目判斷模塊A130對行對齊判斷模塊120判斷為未左對齊的區(qū)域的分割結(jié)果(區(qū)域的區(qū)域信息、行信息以及字符信息)被發(fā)送至判斷結(jié)果輸出模塊170。另外,包括字符的區(qū)域被判斷為左對齊或者未左對齊??s進分析模塊150連接至處理變更模塊140和段落和項目判斷模塊B160??s進分析模塊150對行對齊判斷模塊120判斷為左對齊的區(qū)域中的行的縮進進行分析。稍后利用圖12和圖13的示例來描述此處理的詳細示例??s進分析模塊150可以通過基于從區(qū)域的左端到該區(qū)域中各行的左端的距離,將各行分類為縮進行和未縮進行,來分析行縮進。段落和項目判斷模塊B160連接至縮進分析模塊150和判斷結(jié)果輸出模塊170。段落和項目判斷模塊B160基于縮進分析模塊150的分析結(jié)果,將行對齊判斷模塊120判斷為左對齊的區(qū)域分割為段落區(qū)域或者項目區(qū)域。稍后利用圖14A至圖15B的示例來描述此處理的詳細示例。段落和項目判斷模塊B160可以基于行中包括的字符串中是否包括預(yù)定的字符串、以及作為縮進分析模塊150的分析結(jié)果的分類邊界是否與段落邊界重合,來將區(qū)域分割為段落區(qū)域或者項目區(qū)域。判斷結(jié)果輸出模塊170連接至處理變更模塊140和段落和項目判斷模塊B160。判斷結(jié)果輸出模塊170對于行對齊判斷模塊120判斷為未左對齊的區(qū)域輸出段落和項目判斷模塊A130的分割結(jié)果,而對于行對齊判斷模塊120判斷為左對齊的區(qū)域輸出段落和項目判斷模塊B160的分割結(jié)果。存在省略段落和項目判斷模塊A130的分割結(jié)果以及段落和項目判斷模塊B160的分割結(jié)果兩者中的任一方的情況。因此,判斷結(jié)果輸出模塊170可以輸出段落和項目判斷模塊A130的分割結(jié)果以及段落和項目判斷模塊B160的分割結(jié)果兩者中的任一方,或者輸出段落和項目判斷模塊A130的分割結(jié)果以及段落和項目判斷模塊B160的分割結(jié)果這兩者。分割結(jié)果的輸出例如包括:將分割結(jié)果寫入諸如文檔數(shù)據(jù)庫的存儲裝置中作為與文檔有關(guān)的信息;將分割結(jié)果存儲到諸如存儲卡的存儲介質(zhì)中;將分割結(jié)果發(fā)送至其它信息處理裝置(例如執(zhí)行解釋處理等的信息處理裝置)等。此外,行對齊判斷模塊120和段落和項目判斷模塊A130兩者中的任一方可先執(zhí)行處理,或者兩者可以并行執(zhí)行處理。圖2是例示出根據(jù)示例性實施方式的處理示例的流程圖。在步驟S202中,布局信息取得模塊110取得布局信息。布局信息包括上述的區(qū)域信息、行信息以及字符信息。圖3是例示出布局信息取得模塊110取得的信息的數(shù)據(jù)結(jié)構(gòu)示例的示圖。布局信息300包括區(qū)域信息310和行信息330。在此,示出了區(qū)域是矩形區(qū)域的示例。另外,行信息330存儲表示區(qū)域信息310中的區(qū)域信息所表示的區(qū)域中的行的信息。區(qū)域信息310包括坐標(biāo)信息312和句子方向信息322,作為與區(qū)域有關(guān)的信息。坐標(biāo)信息312存儲區(qū)域的位置和尺寸。坐標(biāo)信息312包括X314、y316、高度318以及寬度320。x314存儲區(qū)域的左上坐標(biāo)的X坐標(biāo)。y316存儲區(qū)域的左y坐標(biāo)。高度318存儲區(qū)域的高度。寬度320存儲區(qū)域的寬度。此外,雖然例示出左上坐標(biāo)的X坐標(biāo)和I坐標(biāo)、高度以及寬度作為坐標(biāo)信息,但是也可使用其它信息,例如右上坐標(biāo)的X坐標(biāo)和I坐標(biāo)、高度以及寬度,而且也可使用左上坐標(biāo)的X坐標(biāo)和y坐標(biāo)以及右下坐標(biāo)的X坐標(biāo)和I坐標(biāo),只要該信息指示矩形的位置即可。下文中,上述情況也同樣適用于坐標(biāo)信息332和坐標(biāo)信息348中的信息。句子方向信息322存儲區(qū)域中的句子的方向(行方向)。句子方向包括水平書寫和垂直書寫。此外,在水平書寫的情況下,可以包括從左至右的方向和從右至左的方向。具體來說,存儲表示水平書與、垂直書與等的符號。行信息330包括區(qū)域中包括的各行的坐標(biāo)信息332、字符尺寸342以及字符信息344。因此,在區(qū)域中有多個行的情況下,存在多條行信息330。坐標(biāo)信息332存儲行的位置和尺寸。在此,示出行是矩形區(qū)域的示例。坐標(biāo)信息332包括X334,y336、高度338以及寬度340。X334存儲行的左X坐標(biāo)。y336存儲行的左上坐標(biāo)的y坐標(biāo)。高度338存儲行的高度。寬度340存儲行的寬度。字符尺寸342存儲行中包括的字符的尺寸。例如,存在磅值、點尺寸(dotsize)等。字符信息334針對行中包括的各字符存儲與該字符有關(guān)的信息。因此,在行中有多個字符的情況下,存在多條字符信息344。字符信息344包括字符代碼346和坐標(biāo)信息348。字符代碼346存儲表示字符的字符代碼。坐標(biāo)信息348包括X350、y352、高度354以及寬度356。在此,示出字符是矩形區(qū)域的示例。X350存儲字符的左X坐標(biāo)。J352存儲字符的左上坐標(biāo)的y坐標(biāo)。高度354存儲字符的高度。寬度356存儲字符的寬度。例如通過對文檔布局分析、字符識別以及電子文檔提取中的兩個以上處理結(jié)果進行整合,獲得布局信息取得模塊110取得的信息。例如,區(qū)域信息是布局分析的處理結(jié)果,并且行信息和字符信息是字符識別或者電子文檔提取的處理結(jié)果。具體來說,當(dāng)通過掃描文檔取得的圖像作為對象時,行信息和字符信息是字符識別的結(jié)果,而當(dāng)電子文檔作為對象時,首先取得文檔中的字符代碼,并且針對沒有字符代碼的部分執(zhí)行字符識別,以取得其識別結(jié)果。圖4是例示出布局信息取得模塊110取得的信息的示例的示圖。在區(qū)域信息410中,存在總共3個項目,第一項目包括兩個項目(行信息420b和420c),并且如行信息420e中所示存在縮進行。區(qū)域信息410包括六條行信息:行信息420a至行信息420f。此外,行信息420包括八條字符信息:字符信息430a至字符信息430r。另外,在圖4的示例中,雖然省略了行信息420b之后的行信息中的字符信息,但每行都包括字符信息。在步驟S204中,行對齊判斷模塊120計算作為判斷材料的數(shù)值統(tǒng)計量。在此,示出計算區(qū)域中的字符尺寸和行的中點坐標(biāo)這兩者的示例。至少可計算行的中點坐標(biāo),并且也可計算其它信息。關(guān)于區(qū)域中的字符尺寸,取得區(qū)域中的字符尺寸,并且計算眾數(shù),使用眾數(shù)作為區(qū)域中的代表字符尺寸。除了眾數(shù),還可使用平均值或者中間值。該值可以用作后續(xù)校正或者判斷處理的基準(zhǔn)。此外,作為在諸如部分混合有大字符的情況下的對策,采用眾數(shù)。此夕卜,例如當(dāng)存在不同字符尺寸時,可以將包括該字符的行分離出來作為不同行,并且在行之間的字符尺寸差異超過預(yù)定值的情況下,可以將區(qū)域分離出來,使得在同一區(qū)域不包括具有不同尺寸的字符。基于句子方向信息來限定計算中點坐標(biāo)的方向。具體來說,垂直書寫是在Y軸方向,而水平書寫是在X軸方向。在此,所計算出的值用于步驟S208中的行對齊判斷。圖5是例示出行對齊判斷模塊120執(zhí)行的處理示例(中點坐標(biāo)的計算處理示例)的示圖。行信息420a至行信息420f的中點分別是中點坐標(biāo)510a至中點坐標(biāo)510f。在步驟S206中,行對齊判斷模塊120根據(jù)語言特征來校正信息。此外,步驟S206中的處理可省略。例如,在對象是規(guī)定了行尾對齊的語言的情況下(日語、中文等),省略步驟S206中的處理。此外,可以判斷語言是否是未規(guī)定行尾對齊的語言(英語、韓語等)。這種判斷可以利用上述的字符代碼來執(zhí)行。由于在未規(guī)定行尾對齊的語言(英語、韓語等)中行尾可能未對齊,因此執(zhí)行校正,以便進行與規(guī)定了行尾對齊的語言(日語、中文等)相同的處理。圖6和圖7是例示出當(dāng)句子方向信息表示水平書寫時,行對齊判斷模塊120執(zhí)行的處理示例的示圖。此外,當(dāng)句子方向信息表不垂直書寫時,執(zhí)行以向右旋轉(zhuǎn)90度的方式的處理。首先,從字符信息取得對象行的下一行中的開始單詞的寬度。作為行信息中的寬度信息,將所取得的單詞寬度和調(diào)整寬度的值添加至對象行的寬度,并且判斷該行信息是否超過區(qū)域?qū)挾?。如果在此處理中判斷出行信息超過了區(qū)域?qū)挾?,則將行信息擴展到區(qū)域信息的末尾。具體來說,對象行的下一行(在水平書寫時位于對象行直接下面的行,而在垂直書寫時位于對象行直接左側(cè)的行)中的開始單詞的寬度是直至在該下一行中由空格分開的單詞的寬度,并且將該寬度添加至對象行。此外,將作為預(yù)定值的調(diào)整寬度的值添加至對象行。在此情況下,判斷對象行是否包括在區(qū)域中。在圖6的示例中,將行信息620a的下一行信息620b中的開始單詞寬度630b(下一行開始單詞寬度640a)和調(diào)整寬度650a添加至行信息620a的右端(X坐標(biāo))。判斷此結(jié)果是否超過區(qū)域信息610的右端。在圖6所示的示例中,判斷出區(qū)域信息610中的行信息620a、行信息620b以及行信息620c超過了區(qū)域信息610的右端。如果行信息620d的右端與區(qū)域信息610的右端相一致,則不必進行此處理。此外,調(diào)整寬度可以基于區(qū)域中的代表字符尺寸來定義。由于存在通過調(diào)整空格尺寸來排列字符的情況,因此提供這種調(diào)整寬度。例如,調(diào)整寬度可以是與代表字符尺寸的三個字符的長度相對應(yīng)的長度。此外,如果判斷出包括行的區(qū)域中未包括對象行,則校正表示行的行信息的寬度,使得該行的右端與區(qū)域的右端相一致。在圖7所示的示例中,將區(qū)域信息710中的行信息720a、行信息720b以及行信息720c的右端擴展到區(qū)域信息710的右端。在步驟S208中,行對齊判斷模塊120對行對齊進行判斷(對左對齊、居中對齊以及右對齊進行判斷)。可以根據(jù)區(qū)域中的行首、行尾以及中點的坐標(biāo)執(zhí)行判斷。當(dāng)句子方向信息表示水平書寫時,行首的坐標(biāo)是行的左端的X坐標(biāo),行尾的坐標(biāo)是行的右端的X坐標(biāo),而中點的坐標(biāo)是在步驟S204中計算的中點的X坐標(biāo)。圖8、圖9以及圖10中所示的示例用于描述水平書寫的情況,并且當(dāng)句子方向信息表示垂直書寫時,通過向右旋轉(zhuǎn)90度可以執(zhí)行等同處理。此外,在區(qū)域中只有唯一行的情況下,進行左對齊判斷。圖8是例示出行對齊判斷模塊120執(zhí)行的步驟S208中的處理示例的流程圖。在步驟S802中,行對齊判斷模塊120判斷是否“右坐標(biāo)(行的右端的x坐標(biāo))對齊”并且是否“左坐標(biāo)(行的左端的X坐標(biāo))對齊”,并且如果滿足該條件,則流程進行到步驟S804,否則,流程進行到步驟S806。在此,在“判斷是否對齊”時,計算與區(qū)域坐標(biāo)的差,并且如果該差的方差小于預(yù)定值,則判斷為對齊。例如,預(yù)定值可以是代表字符尺寸的2.5個字符。這也適用于后續(xù)步驟S806。此外,利用左坐標(biāo)未對齊的條件旨在判斷句子緊密填滿矩形的情況為“左對齊”。在步驟S804中,行對齊判斷模塊120判斷區(qū)域為右對齊。在圖9所示的示例中,由于左坐標(biāo)與區(qū)域的左端坐標(biāo)之間的差,即左側(cè)間隔信息940a、左側(cè)間隔信息940b以及左側(cè)間隔信息940d的方差大于預(yù)定值,所以判斷為“左坐標(biāo)未對齊”,而由于各個行的右坐標(biāo)與區(qū)域右側(cè)信息930c相一致,所以判斷為“右坐標(biāo)對齊”,并且在步驟S804中判斷出區(qū)域信息910為右對齊。在步驟S806中,行對齊判斷模塊120判斷是否“中點坐標(biāo)對齊”并且是否“左坐標(biāo)未對齊”,并且如果如此,則流程進行到步驟S808,否則流程進行到步驟S810。在步驟S808中,行對齊判斷模塊120判斷出區(qū)域為居中對齊。在圖10所示的示例中,由于左坐標(biāo)與區(qū)域的左端坐標(biāo)之間的差,即左側(cè)間隔信息1040a、左側(cè)間隔信息1040b以及左側(cè)間隔信息1040d的方差大于預(yù)定值,所以判斷為“左坐標(biāo)未對齊”,并且由于各個行的中點坐標(biāo)與區(qū)域中點信息1030b—致,所以判斷為“中點坐標(biāo)對齊”,并且在步驟S808中判斷出區(qū)域信息1010為居中對齊。在步驟S810中,行對齊判斷模塊120判斷區(qū)域為左對齊。此外,由于在句子中存在段落縮進的情況,因此不用左坐標(biāo)對齊的條件來判斷左對齊。此外,判斷是按照步驟S802和S806的順序執(zhí)行的,但也可按照相反順序執(zhí)行,并且利用組合上述條件取得的條件經(jīng)一次判斷來進行區(qū)分。在步驟S210中,段落和項目判斷模塊A130利用字符串來檢測項目記號。通過在區(qū)域信息中,將行首開始的預(yù)定數(shù)量字符的字符串與從行尾開始的預(yù)定數(shù)量字符的字符串相比較,來檢測項目記號。例如,如果滿足下列條件,則識別到項目記號。此外,為了即使在使用相同的項目記號縮進段落的情況下也能夠檢測,因此不使用坐標(biāo)信息。然而,也可以使用坐標(biāo)信息。(I)當(dāng)句首有預(yù)定的項目記號時,基于先導(dǎo)字符串是否是預(yù)定字符串來判斷是否是項目記號。然而,限于在區(qū)域中存在以相同記號開始的多個行的情況下,判斷記號為項目記號。這是因為減少由于字符識別的誤識別弓I起的分割錯誤。例如,記號由作為預(yù)定字符串的正規(guī)表達表示,并且對應(yīng)于“[.Y-—*〇☆※□ΛΑψ.]”等。(2)當(dāng)具有括弧的項目記號位于句首時,檢測先導(dǎo)字符串是否由括弧包圍,并且如果在區(qū)域中存在以由相同括弧所包圍的字符串開始的多個行,則判斷出記號為項目記號。例如,記號由作為預(yù)定字符串的正規(guī)表達表示,并且對應(yīng)于“[(Y[〈]”等。例如,記號由作為結(jié)束括弧的正規(guī)表達表示,并且對應(yīng)于“DY]〉]”等。此外,可以包括在說明書中無法使用的括弧記號(“半角括號”和用于寫段號的“固定括弧(也稱為括號)”)。可以將要判斷的字符數(shù)量設(shè)置為預(yù)定數(shù)量。例如,預(yù)定數(shù)量可以在從頭開始四個字符以內(nèi)的范圍。(3)當(dāng)字母數(shù)字字符位于句首并且滿足條件時條件(3-1)“初始字符是字母數(shù)字字符、中文數(shù)字或者羅馬字符”并且“第二字符是.一”中的任一方”。此外,如果存在滿足前述條件的多個行,并且初始字符的字符代碼連續(xù)存在,則判斷為項目。例如,如果“Α”、“Β”等連續(xù)存在,則被檢測到。條件(3-2)“從初始字符開始連續(xù)存在數(shù)字的行”當(dāng)存在滿足該條件的多個行,并且數(shù)字由數(shù)值替代且以數(shù)值的順序排列時,如果作為行的相鄰數(shù)值之間的差是O或者1,則判斷為項目。此外,由于僅后半個字符可以變化,諸如例如“12-1”和“12-2”,因此存在差(初始數(shù)字12和12之間的差)為O的情況。在步驟S212中,段落和項目判斷模塊A130利用句子結(jié)束記號來檢測段落邊界。如果上一行的句子以標(biāo)點符號或者句號結(jié)束,則判斷出段落邊界位于其間。檢測到的句子結(jié)束字符串是預(yù)定的。例如,句子結(jié)束字符串由作為預(yù)定字符串的正規(guī)表達表示,并且可以是!”。此外,可增加在文本行中句子起始縮進的條件。這是為了防止在標(biāo)點符號碰巧位于行尾的句子中判斷出在不是段落邊界的部位分段。在步驟S214中,段落和項目判斷模塊A130利用字符數(shù)量來檢測段落邊界。在區(qū)域中的行的平均字符數(shù)小于預(yù)定值的情況下,判斷為是對單詞進行枚舉,并且所有行被分為單獨行(使用各行的邊界用作段落邊界)。此外,在英語中,將由空格分開的單詞的數(shù)量作為對象。例如,作為預(yù)定值,平均字符數(shù)在日語、中文以及韓語的情況下可以是八個字符,而在英語的情況下可以是三個單詞。在此,作為條件,當(dāng)一行中的數(shù)字串完全由“+「.,,γ$%-」”(正規(guī)表達)構(gòu)成時,可以在不考慮字符數(shù)的情況下分離數(shù)字串。此目的在于處理沒有格線的表單等。在步驟S214中,判斷字符是否是表單單元中的字符,并且如果字符是表單單元中的字符,則針對字符可以不執(zhí)行此處理。此目的在于處理單元中的字符不規(guī)則排列的情況。在步驟S216中,段落和項目判斷模塊A130利用位于句子起始和句子結(jié)束處的記號來檢測段落邊界。這是針對由括弧包圍的句子的枚舉的對策。如果行首的字符和行尾的字符是對應(yīng)的括弧,則判斷該行為單獨行,并進行分割(使用行的邊界作為段落邊界)。例如,存在[]、「」、()、“”、以及作為預(yù)定的括弧字符,并且由它們之一所包圍的行是對象。此外,從步驟S210至S216的處理可以是它們中的一個步驟或者更多個步驟的處理。此外,從步驟S210至S216的處理可以不是順序執(zhí)行的。例如,可以按照相反順序執(zhí)行這些處理或者可以并行執(zhí)行這些處理。此外,可使用現(xiàn)有技術(shù)文件中公開的技術(shù)來替代這些處理,或者現(xiàn)有技術(shù)文件中公開的技術(shù)可以與這些處理一起使用。在步驟S218中,段落和項目判斷模塊A130分離出在被判斷為存在項目記號的行與前一行之間的邊界處的區(qū)域信息,并且使用所分離出的區(qū)域信息作為段落信息。利用通過從步驟S210至步驟S216的處理所檢測到的段落邊界來分離出區(qū)域信息,并且使用區(qū)域信息作為段落信息。整合通過從步驟S210至S216的處理所檢測到的信息,并且針對每條段落信息分離句子。其中檢測到了項目記號的行因為句子被判斷在該行之前劃分而被分開。利用段落邊界作為邊界來分離信息。此時,針對每個“段落區(qū)域”匯總區(qū)域信息,諸如圖11的示例中所示的虛線所包圍的段落信息1120a至1120e。在步驟S220中,處理變更模塊140判斷區(qū)域是否是左對齊(在垂直書寫的情況下是否是上對齊),并且如果區(qū)域是左對齊(上對齊),則流程進行到步驟S222。隨后,流程進行到步驟S228。如果在步驟S208中判斷待處理的區(qū)域信息是左對齊,則附加執(zhí)行關(guān)于區(qū)域信息中的句子是否縮進的判斷處理(從步驟S222至步驟S226的處理)。在居中對齊和右對齊的情況下,流程進行到步驟S228。在垂直書寫的情況下,在上對齊的情況下流程進行到步驟S222,否則流程進行到步驟S228。在步驟S222中,縮進分析模塊150利用區(qū)域中的行的行首坐標(biāo)來檢測縮進,并且選擇縮進候選。利用區(qū)域的左端坐標(biāo)與區(qū)域中包括的行的左端坐標(biāo)之間的距離來對行進行分組。圖12是例示出縮進分析模塊150執(zhí)行的處理示例的示圖。區(qū)域信息1100包括五個段落的段落信息1120a至1120e。此外,段落信息1120d包括兩個行。其它段落分別僅包括一個行。從區(qū)域信息1100的左端至段落信息1120a中的行的左端的距離是O(區(qū)域左坐標(biāo)A:1210;即它們彼此重合)。類似的是,從區(qū)域信息1100的左端到段落信息1120d中的第一行和段落信息1120e中的行的左端的距離是0,并且它們形成組A。從區(qū)域信息1100的左端到段落信息1120b中的行的左端的距離、從區(qū)域信息1100的左端到段落信息1120c中的行的左端的距離、以及從區(qū)域信息1100的左端到段落信息1120d中的第二行的左端的距離(區(qū)域縮進坐標(biāo)B:1220)相同,因此它們形成組B。在此相同的距離表示被比較的距離之間的差在預(yù)定值內(nèi)。例如,在區(qū)域中,差可以在代表字符尺寸的0.7個字符內(nèi)。此外,順序檢查行的組,并且在一個組變更至另一個組的邊界處選擇縮進候選。換言之,如果相同組中包括的行連續(xù)排列,則多個行成為相同的縮進候選。具體來說,在圖12所示的示例中,在段落信息1120a中的行與段落信息1120b中的行之間的邊界處、在段落信息1120c中的行與段落信息1120d中的第一行之間的邊界處、在段落信息1120d中的第一行與段落信息1120d中的第二行之間的邊界處、以及在段落信息1120d中的第二行與段落信息1120e中的行之間的邊界處,選擇縮進候選。因此,在區(qū)域信息1100中有五個縮進候選。具體來說,如圖13中示例所示,段落信息1120a與縮進候選信息1310a重合,并且段落信息1120b和段落信息1120c包括在縮進候選信息1310b中。相反,縮進候選信息1310c和縮進候選信息1310d包括在段落信息1120d中,并且段落信息1120e與縮進候選信息1310e重合。此外,存在縮進候選可以包括不是縮進的可能性。在下列步驟中,從縮進候選中選擇縮進。此外,在垂直書寫的情況下,可以利用上端坐標(biāo)來檢測縮進。此外,當(dāng)從區(qū)域的左端至行的左端的距離等于或者大于閾值時,可以選擇縮進候選的行。用于判斷縮進候選的行的閾值是預(yù)定的。例如,使用從區(qū)域的左端至行的左端的距離等于或者大于該區(qū)域中代表字符尺寸的2.5個字符的行作為縮進候選的行。在圖12所示的示例中,組B的從區(qū)域的左端至行的左端的距離(區(qū)域縮進坐標(biāo)B:1220)等于或者大于2.5個字符,因此段落信息1120b中的行、段落信息1120c中的行、以及段落信息1120d中的第二行成為縮進候選的行。在步驟S224中,段落和項目判斷模塊B160利用項目信息來縮小縮進候選。如果在步驟S222中分割為組的縮進候選的邊界滿足下列兩個條件,則將邊界視為缺省,并且后面的縮進候選組包括在前面的縮進候選組中。(條件I)預(yù)定的項目記號(步驟S210等中使用的項目記號等)包括在邊界之前的行中。(條件2)段落的邊界和縮進候選的邊界彼此不重合。對上述進行詳細描述。如圖14A的示例所示,在區(qū)域信息1100中,有五個段落(段落信息1120a至1120e)和五個縮進候選(縮進候選信息1310a至1310e)??s進候選的對象邊界是縮進候選信息1310a與縮進候選信息1310b之間的邊界、縮進候選信息1310b與縮進候選信息1310c之間的邊界、縮進候選信息1310c與縮進候選信息1310d之間的邊界、以及縮進候選信息1310d與縮進候選信息1310e之間的邊界。滿足條件I和2的邊界是縮進候選信息1310c與縮進候選信息1310d之間的邊界。換言之,預(yù)定的項目記號“”包括在縮進候選信息1310c中。此外,沒有與縮進候選信息1310c與縮進候選信息1310d之間的邊界位于相同位置處的段落邊界。這是因為縮進候選信息1310c和縮進候選信息1310d包括在段落信息1120d中。因此,縮進候選信息1310d屬于組B,但變更為屬于作為縮進候選信息1310c的組的組A,并且縮進候選信息1310c和縮進候選信息1310d被視為單一縮進候選。此外,執(zhí)行在步驟S222中執(zhí)行的縮進候選分割。換言之,順序檢查行的組,并且如果相同組中包括的行連續(xù)排列,則多個行成為相同縮進候選。具體來說,由于縮進候選信息1310d變更為屬于組A,縮進候選信息1310c、縮進候選信息1310d以及縮進候選信息1310e屬于相同組A并且連續(xù)排列,因此將它們被視為組A的縮進候選。將上述應(yīng)用于區(qū)域信息1100中的行后的狀態(tài)下的縮進候選成為縮進(項目區(qū)域)。圖14A中示出的示例也應(yīng)用于圖14B中所示的示例。換言之,存在三個縮進(項目區(qū)域):僅由在區(qū)域信息1100中的第一行形成的縮進信息1410a、由區(qū)域信息1100中的第二行和第三行形成的縮進信息1410b、以及由區(qū)域信息1100中的第四行、第五行以及第六行形成的縮進信息1410c??s進信息1410a屬于組A,縮進信息1410b屬于組B,而縮進信息1410c屬于組A。此外,在縮進候選的邊界位于區(qū)域中的第一行與第二行之間,并且第一行排列在第二行下方(所謂反向縮進狀態(tài);具體來說,在垂直書寫的情況下,第一行比第二行位于更右側(cè),而在水平書寫的情況下,第一行比第二行位于更下側(cè)),第一行的組可以變更至第二行的組。這是針對段落起始的縮進寬度大的情況的對策,而且這是因為第一行被判斷為不縮進。在步驟S226中,段落和項目判斷模塊B160利用行尾信息來分割段落信息。針對每個段落,比較連續(xù)行的行尾坐標(biāo)。如果后面行的行尾從前面行的行尾向下預(yù)定值(在水平書寫的情況下,后面行的行尾比前面行的行尾在更右側(cè)的狀態(tài),而在垂直書寫的情況下,后面行的行尾比前面行的行尾位于更下側(cè)的狀態(tài)),則假設(shè)段落的邊界位于被比較的行之間,來分割段落信息。例如三個以上字符等作為預(yù)定值。此外,雖然英語中存在行尾未對齊的情況,但是可以在步驟S206中進行校正,因此步驟S226的處理也可這樣執(zhí)行。對上述進行詳細描述。如圖15A的示例所示,通過對行信息1520c和行信息1520d的行尾坐標(biāo)進行比較,發(fā)現(xiàn)行信息1520d的行尾比行信息1520c的行尾(行信息1540)位于更右側(cè)預(yù)定值以上。因此,在行信息1520c與行信息1520d之間(行邊界信息1530)分割段落信息1515。如圖15B的不例所不,在區(qū)域信息1510中有兩個段落,段落信息1550a和段落信息1550b。此外,當(dāng)區(qū)域中的行的數(shù)量小于預(yù)定值時,可以省略步驟S226中的處理。例如三行或者更少行等作為預(yù)定值。由少量行構(gòu)成的區(qū)域很可能是標(biāo)題。由于在標(biāo)題中,行尾通常不對齊,因此可以排除步驟S226中的處理。在步驟S228中,判斷結(jié)果輸出模塊170輸出分割結(jié)果。通過從步驟S222至步驟S226獲取左對齊的區(qū)域的結(jié)果,而通過步驟S218中的處理獲取未左對齊的區(qū)域的結(jié)果。在上述示例中,主要描述了布局信息取得模塊110取得的布局信息不包括錯誤字符的情況。然而,存在取得字符識別結(jié)果作為布局信息取得模塊110取得的布局信息的情況。例如,通過對圖16A所示的對象圖像1610執(zhí)行結(jié)構(gòu)識別和字符識別獲得的結(jié)果是圖16B所示的識別結(jié)果1620。取得關(guān)于識別結(jié)果1620的信息作為步驟S202中的布局信息。由于在字符識別技術(shù)中可能誤識別記號,因此存在表示項目的項目記號或者字符串未被正確取得的情況。由于在段落和項目判斷模塊A130執(zhí)行的處理中僅參考字符代碼,因此難以找到誤識別的句子的斷開處。在示例性實施方式中,作為縮進分析模塊150以及段落和項目判斷模塊B160執(zhí)行的處理,合并并分析字符串的信息和行的位置信息。參照圖17,將描述根據(jù)示例性實施方式的信息處理裝置的硬件構(gòu)造示例。圖17所示的構(gòu)造例如由個人計算機(PC)等實現(xiàn),并且是包括諸如掃描儀的數(shù)據(jù)讀取單元1717和諸如打印機的數(shù)據(jù)輸出單元1718的硬件構(gòu)造示例。CPU(中央處理單元)1701是根據(jù)計算機程序執(zhí)行處理的控制器,該計算機程序描述了上述實施方式中描述的以下各種模塊的執(zhí)行序列:即,布局信息取得模塊110、行對齊判斷模塊120、段落和項目判斷模塊A130、處理變更模塊140、縮進分析模塊150、段落和項目判斷模塊B160以及判斷結(jié)果輸出模塊170。ROM(只讀存儲器)1702存儲CPU1701使用的程序或者操作參數(shù)。RAM(隨機訪問存儲器)1703存儲CPU1701執(zhí)行時所使用的程序或者在執(zhí)行中適當(dāng)變化的參數(shù)。它們經(jīng)由CPU總線組成的主機總線1704彼此連接。主機總線1704經(jīng)由橋接器1705連接至諸如PCI(外圍組件互連/接口)總線的外部總線1706。鍵盤1708和諸如鼠標(biāo)的指示裝置1709是操作人員操作的輸入設(shè)備。顯示器1710包括液晶顯示器、CRT(陰極射線管)等,并且顯示作為文本或者圖像信息的各種信息。HDD(硬盤驅(qū)動器)1711其內(nèi)具有嵌入有硬盤,驅(qū)動硬盤,并且記錄或者復(fù)制CPU1701執(zhí)行的程序或者信息。硬盤存儲布局信息取得模塊110接收到的布局信息、段落和項目判斷模塊A130的處理結(jié)果等。此外,在硬盤中存儲諸如各種其它數(shù)據(jù)處理程序的各種計算機程序。驅(qū)動器1712讀取安裝于其中的諸如磁盤、光盤、磁光盤或者半導(dǎo)體存儲器的可移動記錄介質(zhì)1713上的數(shù)據(jù)或者程序,并且將數(shù)據(jù)和程序提供給經(jīng)由接口1707、外部總線1706、橋接器1705以及主機總線1704與其連接的RAM1703。可移動記錄介質(zhì)1718還可以以與硬盤相同的方式用作數(shù)據(jù)記錄區(qū)。連接端口1714是用于連接至外部連接裝置1715的端口,并且具有諸如USB或者IEEE1394的連接單元。連接端口1714經(jīng)由接口1707、外部總線1706、橋接器1705以及主機總線1704連接至CPU1701等。通信單元1716連接至通信線并且執(zhí)行與外部裝置的數(shù)據(jù)通信處理。數(shù)據(jù)讀取單元1717例如是掃描儀,并且執(zhí)行文檔讀取處理。數(shù)據(jù)輸出單元1718例如是打印機,并且執(zhí)行文檔數(shù)據(jù)輸出處理。此外,圖17中所示的信息處理裝置的硬件構(gòu)造示出了構(gòu)造示例,但示例性實施方式不限于圖17所示的構(gòu)造,并且可采用可以執(zhí)行示例性實施方式中描述的模塊的構(gòu)造。例如,一些模塊可由專用硬件(例如專用集成電路)構(gòu)成,一些模塊可具有位于外部系統(tǒng)中并且經(jīng)由通信線連接的形式,而圖17所示的多個系統(tǒng)可經(jīng)由通信線彼此連接并且彼此協(xié)調(diào)操作。此外,硬件構(gòu)造可并入打印機、傳真機、掃描儀、打印機、多功能外部設(shè)備(具有掃描儀、打印機、復(fù)印機以及傳真機中的兩種以上功能的圖像處理裝置)等。雖然主要利用水平書寫的情況下的示例來描述上述示例性實施方式,但是在垂直書寫的情況下,可以利用旋轉(zhuǎn)90度的坐標(biāo)系統(tǒng)。在此情況下,水平書寫中的左對齊變?yōu)榇怪睍鴮懼械纳蠈R,而水平書寫中的右對齊變?yōu)榇怪睍鴮懼械南聦R。此外,行的中點是水平書寫中的行的水平寬度中的中點,并且是垂直書寫中的行的高度中的中點。此外,布局信息取得模塊110可以基于布局信息來判斷區(qū)域是否是水平書寫(或者垂直書寫),隨后根據(jù)其判斷結(jié)果執(zhí)行處理(在水平書寫的情況下用于水平書寫的處理和在垂直書寫的情況下用于垂直書寫的處理)。此外,在基于布局信息判斷水平書寫時,如果在布局信息中存在表示區(qū)域是否是水平書寫的信息,則根據(jù)該信息執(zhí)行判斷。此外,如果不存在信息,則可以利用布局信息的行信息中的行的高度和寬度之比來執(zhí)行判斷。例如,如果高度和寬度之比表示它在水平方向大于預(yù)定比率,則判斷為水平書寫,而如果高度和寬度之比表示它在垂直方向大于預(yù)定比率,則判斷為垂直書寫。在上述示例性實施方式的描述中,在與預(yù)定值進行比較時,則“等于或更大”、“等于或小于”、“大于”以及“小于”可分別用“大于”、“小于”、“等于或更大”以及“等于或小于”來替代,只要它們的組合不產(chǎn)生矛盾即可。此外,上述程序可以存儲在記錄介質(zhì)上并提供,或者程序可以利用通信單元來提供。在此情況下,例如可將上述程序理解為“記錄程序的計算機可讀記錄介質(zhì)”的發(fā)明?!坝涗洺绦虻挠嬎銠C可讀記錄介質(zhì)”指的是用于安裝執(zhí)行程序以及發(fā)布程序、上面記錄程序并且能夠由計算機讀取的記錄介質(zhì)。此外,例如,記錄介質(zhì)包括:作為數(shù)字通用盤(DVD)且作為DVD論壇制定標(biāo)準(zhǔn)的例如“DVD-R、DVD-RW、DVD-RAM等”;作為由DVD+RW制定標(biāo)準(zhǔn)的“DVD+R、DVD+RW等”;作為光盤(CD)的只讀存儲器(CD-ROM)、CD-可記錄(CD-R)、CD-可重寫(CD-RW)等;藍光光盤(Blu-raydisc,注冊商標(biāo));磁光盤(MO);柔性盤(FD);磁帶;硬盤;只讀存儲器(ROM);電可擦可編程只讀存儲器(EEPROM(注冊商標(biāo)));閃速存儲器;隨機存取存儲器(RAM);SD(安全數(shù)字)存儲卡等。上述程序或者其部分可以記錄在記錄介質(zhì)上以保留或者發(fā)布。此外,程序可以通過通信來傳輸,例如經(jīng)由諸如局域網(wǎng)(LAN)、城域網(wǎng)(MAN)、廣域網(wǎng)(WAN)、因特網(wǎng)、內(nèi)聯(lián)網(wǎng)以及外聯(lián)網(wǎng)的有線網(wǎng)絡(luò)或者無線通信網(wǎng)絡(luò)。此外,程序可利用諸如記錄介質(zhì)的組合的傳輸介質(zhì)來傳輸或者可以承載在載波上。此外,上述程序可以是其他程序的一部分,或者可以與獨立程序一起記錄在記錄介質(zhì)上。此外,程序可以經(jīng)分割記錄到多個記錄介質(zhì)上。程序可以任何形式記錄,只要能夠通過壓縮、解碼等可以恢復(fù)程序即可。出于例示和描述的目的,提供了本發(fā)明的示例性實施方式的前述描述。并非旨在對本發(fā)明進行窮舉或者將本發(fā)明限于所公開的精確形式。顯然,對于本領(lǐng)域技術(shù)人員來說明可以有多種變化和變型。選擇了實施方式進行說明以最好地解釋本發(fā)明的原理及其實際應(yīng)用,以使本領(lǐng)域技術(shù)人員能夠理解本發(fā)明的各種實施方式,以及適合于所設(shè)想的具體用途的各種變型。旨在由所附權(quán)利要求及其等同來限定本發(fā)明的范圍。權(quán)利要求1.一種信息處理裝置,該信息處理裝置包括:取得單元,該取得單元取得區(qū)域信息、行信息以及字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與該區(qū)域中的行有關(guān)的信息,而該字符信息是與該行中的字符有關(guān)的息;判斷單元,該判斷單元基于所述取得單元取得的行信息,來判斷包括該行信息所指示的行的區(qū)域是否左對齊;第一分割單元,該第一分割單元基于所述取得單元取得的字符信息,將包括該字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項目區(qū)域;分析單元,該分析單元分析所述判斷單元判斷為左對齊的區(qū)域內(nèi)的行的縮進;第二分割單元,該第二分割單元基于所述分析單元的分析結(jié)果,將所述判斷單元判斷為左對齊的區(qū)域分割為段落區(qū)域或者項目區(qū)域;以及輸出單元,該輸出單元針對所述判斷單元判斷為未左對齊的區(qū)域,輸出所述第一分割單元的分割結(jié)果,而針對所述判斷單元判斷為左對齊的區(qū)域,輸出所述第二分割單元的分割結(jié)果。2.根據(jù)權(quán)利要求1所述的信息處理裝置,其中,當(dāng)作為對象的語言是沒有規(guī)定行尾對齊的語言時,所述判斷單元基于與行信息所指示的行的下一行中的字符有關(guān)的字符信息來變更該行信息,然后判斷包括所述行信息所指示的行的區(qū)域是否左對齊。3.根據(jù)權(quán)利要求1或者2所述的信息處理裝置,其中,所述判斷單元基于所述取得單元取得的行信息,計算該行信息所指示的行的中點坐標(biāo),并且基于所述區(qū)域內(nèi)的行的行首坐標(biāo)、中點坐標(biāo)以及行尾坐標(biāo)中的一個以上坐標(biāo)來判斷所述區(qū)域是否左對齊。4.根據(jù)權(quán)利要求1至3中任一項所述的信息處理裝置,其中,所述第一分割單元基于位于行首或者行尾中的一個以上字符的字符串是否滿足預(yù)定字符串條件,將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。5.根據(jù)權(quán)利要求1至4中任一項所述的信息處理裝置,其中,所述第一分割單元基于由所述區(qū)域內(nèi)的行的字符數(shù)量所預(yù)定的值是否滿足預(yù)定條件,將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。6.根據(jù)權(quán)利要求1至5中任一項所述的信息處理裝置,其中,所述分析單元通過基于從區(qū)域的左端到該區(qū)域內(nèi)各行的左端的距離,將所述各行分類為縮進行和未縮進行,來分析行的縮進。7.根據(jù)權(quán)利要求6所述的信息處理裝置,其中,所述第二分割單元基于行內(nèi)所含的字符串中是否包括預(yù)定字符串以及作為所述分析單元的分析結(jié)果的分類邊界是否與所述段落的邊界重合,來將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。8.一種信息處理裝置,該信息處理裝置包括:取得單元,該取得單元取得區(qū)域信息、行信息以及字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與該區(qū)域中的行有關(guān)的信息,而該字符信息是與該行中的字符有關(guān)的息;判斷單元,該判斷單元基于所述取得單元取得的行信息,來判斷包括該行信息所指示的行的區(qū)域是否上對齊;第一分割單元,該第一分割單元基于所述取得單元取得的字符信息,將包括該字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項目區(qū)域;分析單元,該分析單元分析所述判斷單元判斷為上對齊的區(qū)域內(nèi)的行的縮進;第二分割單元,該第二分割單元基于所述分析單元的分析結(jié)果,將所述判斷單元判斷為上對齊的區(qū)域分割為段落區(qū)域或者項目區(qū)域;以及輸出單元,該輸出單元針對所述判斷單元判斷為未上對齊的區(qū)域,輸出所述第一分割單元的分割結(jié)果,而針對所述判斷單元判斷為上對齊的區(qū)域,輸出所述第二分割單元的分割結(jié)果。9.根據(jù)權(quán)利要求8所述的信息處理裝置,其中,當(dāng)作為對象的語言是沒有規(guī)定行尾對齊的語言時,所述判斷單元基于與行信息所指示的行的下一行中的字符有關(guān)的字符信息來變更該行信息,然后判斷包括該行信息所指示的行的區(qū)域是否上對齊。10.根據(jù)權(quán)利要求8或者9所述的信息處理裝置,其中,所述判斷單元基于所述取得單元取得的行信息,來計算該行信息所指示的行的中點坐標(biāo),并且基于所述區(qū)域內(nèi)的行的行首坐標(biāo)、中點坐標(biāo)以及行尾坐標(biāo)中的一個以上坐標(biāo)來判斷所述區(qū)域是否上對齊。11.根據(jù)權(quán)利要求8至10中任一項所述的信息處理裝置,其中,所述第一分割單元基于位于行首或者行尾中的一個以上字符的字符串是否滿足預(yù)定字符串條件,將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。12.根據(jù)權(quán)利要求8至11中任一項所述的信息處理裝置,其中,所述第一分割單元基于由所述區(qū)域內(nèi)的行的字符數(shù)量所預(yù)定的值是否滿足預(yù)定條件,將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。13.根據(jù)權(quán)利要求8至12中任一項所述的信息處理裝置,其中,所述分析單元通過基于從區(qū)域的上端到該區(qū)域內(nèi)各行的上端的距離,將所述各行分類為縮進行和未縮進行,來分析行的縮進。14.根據(jù)權(quán)利要求13所述的信息處理裝置,其中,所述第二分割單元基于行內(nèi)所含的字符串中是否包括預(yù)定字符串以及作為所述分析單元的分析結(jié)果的分類邊界是否與所述段落的邊界重合,將所述區(qū)域分割為段落區(qū)域或者項目區(qū)域。15.一種信息處理方法,該信息處理方法包括以下步驟:取得步驟,取得區(qū)域信息、行信息以及字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與該區(qū)域中的行有關(guān)的信息,而該字符信息是與該行中的字符有關(guān)的信息;判斷步驟,基于所述取得步驟取得的行信息,來判斷包括該行信息所指示的行的區(qū)域是否左對齊;第一分割步驟,基于所述取得步驟所取得的字符信息,將包括該字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項目區(qū)域;分析步驟,分析所述判斷步驟判斷為左對齊的區(qū)域內(nèi)的行的縮進;第二分割步驟,基于所述分析步驟的分析結(jié)果將所述判斷步驟判斷為左對齊的區(qū)域分割為段落區(qū)域或者項目區(qū)域;以及輸出步驟,針對所述判斷步驟判斷為未左對齊的區(qū)域,輸出所述第一分割步驟的分割結(jié)果,而針對所述判斷步驟判斷為左對齊的區(qū)域,輸出所述第二分割步驟的分割結(jié)果。16.一種信息處理方法,該信息處理方法包括以下步驟:取得步驟,取得區(qū)域信息、行信息以及字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與該區(qū)域中的行有關(guān)的信息,而該字符信息是與該行中的字符有關(guān)的信息;判斷步驟,基于所述取得步驟所取得的行信息,判斷包括該行信息所指示的行的區(qū)域是否上對齊;第一分割步驟,基于所述取得步驟所取得的字符信息,將包括該字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項目區(qū)域;分析步驟,分析所述判斷步驟判斷為上對齊的區(qū)域內(nèi)的行的縮進;第二分割步驟,基于所述分析步驟的分析結(jié)果,將所述判斷步驟判斷為上對齊的區(qū)域分割為段落區(qū)域或者項目區(qū)域;以及輸出步驟,針對所述判斷步驟判斷為未上對齊的區(qū)域,輸出所述第一分割步驟的分割結(jié)果,而針對所述判斷步驟判斷為上對齊的區(qū)域,輸出所述第二分割步驟的分割結(jié)果。全文摘要本發(fā)明涉及信息處理裝置和信息處理方法。一種信息處理裝置包括取得單元,其取得區(qū)域信息、行信息、以及字符信息;判斷單元,其判斷區(qū)域是否左對齊;第一分割單元,其將包括字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項目區(qū)域;分析單元,其分析所述判斷單元判斷為左對齊的區(qū)域內(nèi)的行的縮進;第二分割單元,其將所述判斷單元判斷為左對齊的區(qū)域分割為段落區(qū)域或者項目區(qū)域;以及輸出單元,其針對所述判斷單元判斷為未左對齊的區(qū)域,輸出所述第一分割單元的分割結(jié)果,而針對所述判斷單元判斷為左對齊的區(qū)域,輸出所述第二分割單元的分割結(jié)果。文檔編號G06F17/27GK103218352SQ201210380729公開日2013年7月24日申請日期2012年10月9日優(yōu)先權(quán)日2011年12月9日發(fā)明者今野裕也申請人:富士施樂株式會社