亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

信息處理裝置,信息處理方法,程序和信息處理系統(tǒng)的制作方法

文檔序號:6369064閱讀:157來源:國知局
專利名稱:信息處理裝置,信息處理方法,程序和信息處理系統(tǒng)的制作方法
信息處理裝置,信息處理方法,程序和信息處理系統(tǒng)
背景技術(shù)
本公開涉及信息處理裝置、信息處理方法、程序和信息處理系統(tǒng)。隨著信息處理技術(shù)的發(fā)展,可以處理大量的信息。因此,研究了用于管理大量信息和根據(jù)需要在所管理的信息之間搜索特定信息的技術(shù)。例如,在各種網(wǎng)頁搜索服務(wù)器中,實(shí)現(xiàn)了允許用戶輸入關(guān)鍵字并在所管理的信息中提供與上述關(guān)鍵字匹配的信息的服務(wù),上述關(guān)鍵字與用戶需要對其搜索信息的主題相關(guān)。然而,在該技術(shù)中,由于提取與輸入的關(guān)鍵字匹配的所有信息,需要用戶使用新的關(guān)鍵字來縮減提取的息以獲得需要的息。
另外,研究了在邏輯表達(dá)的基礎(chǔ)上輸入多個關(guān)鍵字、搜索信息和縮減提取的信息的技術(shù)。然而,為了在搜索信息時產(chǎn)生搜索邏輯表達(dá),用戶必須理解邏輯表達(dá)。為了解決以上問題,研究了接收自然句輸入作為信息搜索詢問以搜索信息、分析輸入的自然句、以及從存儲的文檔文件中提取信息的技術(shù)(例如,參考日本專利公開第2010-79915 號公報)。

發(fā)明內(nèi)容
然而,在日本專利公開第2010-79915號公報公開的技術(shù)中,由于所有與輸入的自然語句相似的語句均被提取,提取出的信息并未被充分縮減。由于此原因,需要一種在保持信息搜索的可操作性的同時對搜索到的信息進(jìn)行縮減的技術(shù)。根據(jù)本公開的一種實(shí)施例,提供了一種信息處理裝置,包括用于獲取搜索條件信息的搜索條件信息獲取單元,該搜索條件信息為指示用于搜索根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化后的搜索對象文本的搜索條件的文本信息;用于針對搜索條件信息執(zhí)行語言分析處理的語言處理單元;用于利用搜索條件信息的語言分析結(jié)果來提取搜索條件信息的語句結(jié)構(gòu)的結(jié)構(gòu)提取單元;用于根據(jù)搜索條件信息的語句結(jié)構(gòu)生成反映用于對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu)的搜索表達(dá)式的搜索表達(dá)式生成單元;以及用于利用生成的搜索表達(dá)式,根據(jù)搜索條件信息的語句結(jié)構(gòu)來從搜索對象文本搜索與搜索條件相匹配的文本的搜索單元。根據(jù)本公開的另一實(shí)施例,提供了一種信息處理方法,該方法包括獲取搜索條件信息,搜索條件信息是指示用于搜索根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化后的搜索對象文本的搜索條件的文本信息;針對搜索條件信息執(zhí)行語言分析處理;利用搜索條件信息的語言分析結(jié)果來提取搜索條件信息的語句結(jié)構(gòu);根據(jù)搜索條件信息的語句結(jié)構(gòu)生成反映用于對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu)的搜索表達(dá)式;以及利用生成的搜索表達(dá)式,根據(jù)搜索條件信息的語句結(jié)構(gòu)來從搜索對象文本搜索與搜索條件相匹配的文本。根據(jù)本公開的另一實(shí)施例,提供了一種程序,使計(jì)算機(jī)實(shí)現(xiàn)搜索條件信息獲取功能,用于獲取搜索條件信息,搜索條件信息是指示用于搜索根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化后的搜索對象文本的搜索條件的文本信息;針對搜索條件信息來執(zhí)行語言分析處理的語言處理功能;利用搜索條件信息的語言分析結(jié)果來提取搜索條件信息的語句結(jié)構(gòu)的結(jié)構(gòu)提取功能;根據(jù)搜索條件信息的語句結(jié)構(gòu)生成反映用于對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu)的搜索表達(dá)式的搜索表達(dá)式生成功能;以及利用生成的搜索表達(dá)式,根據(jù)搜索條件信息的語句結(jié)構(gòu)來從搜索對象文本搜索與搜索條件相匹配的文本的搜索功能。根據(jù)本公開的另一實(shí)施例,提供了一種信息處理系統(tǒng),包括信息搜索服務(wù)器,包括用于獲取搜索條件信息的搜索條件信息獲取單元,該搜索條件信息為指示用于搜索根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化后的搜索對象文本的搜索條件的文本信息;用于針對搜索條件信息執(zhí)行語言分析處理的語言處理單元;用于利用搜索條件信息的語言分析結(jié)果來提取搜索條件信息的語句結(jié)構(gòu)的結(jié)構(gòu)提取單元;用于根據(jù)搜索條件信息的語句結(jié)構(gòu)生成反映用于對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu)的搜索表達(dá)式的搜索表達(dá)式生 成單元;以及用于利用生成的搜索表達(dá)式,根據(jù)搜索條件信息的語句結(jié)構(gòu)來從搜索對象文本搜索與搜索條件相匹配的文本的搜索單元;以及生成搜索條件信息并將生成的搜索條件信息輸出到信息搜索服務(wù)器的用戶操作終端。信息搜索服務(wù)器將關(guān)于從用戶操作終端輸出的搜索條件信息的搜索結(jié)果輸出至用戶操作終端。根據(jù)以上描述的本公開的實(shí)施例,獲取搜索條件信息,搜索條件信息為指示搜索條件的文本信息,該搜索條件用于搜索根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化后的搜索對象文本,關(guān)于獲得的搜索條件信息執(zhí)行語言分析處理,且利用搜索條件信息的語言分析結(jié)果提取搜索條件信息的語句結(jié)構(gòu)。然后,生成反映搜索條件信息的語句結(jié)構(gòu)的搜索表達(dá)式,搜索條件信息用于根據(jù)搜索條件信息的語句結(jié)構(gòu)來對搜索對象文本進(jìn)行搜索,并根據(jù)搜索條件信息的語句結(jié)構(gòu),利用生成的搜索表達(dá)式,從搜索對象文本中搜索與搜索條件相匹配的文本。根據(jù)以上描述的本公開的實(shí)施例,搜索出的信息可被縮小范圍,同時保證了信息搜索的可操作性。


圖I是示出根據(jù)本申請第一實(shí)施例的信息處理裝置的配置的框圖;圖2是示出根據(jù)第一實(shí)施例的語言處理單元的配置的例子的框圖;圖3是示出根據(jù)第一實(shí)施例的搜索對象數(shù)據(jù)生成單元的配置的例子的框圖;圖4是示出搜索對象文本的例子的圖;圖5A是示出根據(jù)第一實(shí)施例的語言分析處理的例子的圖;圖5B是示出根據(jù)第一實(shí)施例的語言分析處理的例子的圖;圖5C是示出根據(jù)第一實(shí)施例的語言分析處理的例子的圖;圖6是示出根據(jù)第一實(shí)施例的語句構(gòu)建處理的圖;圖7是示出根據(jù)第一實(shí)施例的語句構(gòu)建處理的圖;圖8是示出根據(jù)第一實(shí)施例的語句構(gòu)建處理的圖;圖9是示出根據(jù)第一實(shí)施例的時序事實(shí)數(shù)據(jù)的圖;圖10是示出根據(jù)第一實(shí)施例中搜索索引的圖;圖11是示出根據(jù)第一實(shí)施例的搜索邏輯表達(dá)生成處理的圖;圖12是示出根據(jù)第一實(shí)施例的文本搜索處理的圖;圖13是示出根據(jù)第一實(shí)施例的文本搜索處理的圖;圖14是示出根據(jù)第一實(shí)施例的搜索結(jié)果的顯示處理的圖15是示出根據(jù)第一實(shí)施例的文本搜索處理的圖;圖16是示出根據(jù)第一實(shí)施例的文本搜索處理的圖;圖17是示出根據(jù)第一實(shí)施例的搜索結(jié)果的顯示處理的圖;圖18是示出根據(jù)第一實(shí)施例的搜索結(jié)果的顯示處理的圖;圖19是示出根據(jù)第一實(shí)施例的搜索結(jié)果的顯示處理的圖;圖20是示出根據(jù)第一實(shí)施例的信息處理方法的流程例子的流程圖;圖21是示出根據(jù)第一實(shí)施例的信息處理方法的流程例子的流程圖;圖22是示出根據(jù)第一實(shí)施例的信息處理方法的流程例子的流程圖;
圖23是示出根據(jù)第一實(shí)施例的信息處理裝置的第一改進(jìn)的圖;以及圖24是示出根據(jù)本公開實(shí)施例的信息處理裝置的硬件配置的框圖。
具體實(shí)施例方式下面參照附圖來詳細(xì)說明本發(fā)明的優(yōu)選實(shí)施例。應(yīng)當(dāng)注意到,在本說明書和附圖中,具有基本相同功能和配置的結(jié)構(gòu)元件均用相同的附圖標(biāo)記來標(biāo)示,并且省略了對這些結(jié)構(gòu)元件的重復(fù)說明。以下說明將按照如下順序進(jìn)行。(I)第一實(shí)施例(1-1)目的( 1-2)信息處理裝置的配置( 1-3)信息搜索處理的具體例子( 1-4)信息處理方法的流程(1-5)第一修改(2)根據(jù)本公開實(shí)施例的信息處理裝置的硬件配置(3)結(jié)論(第一實(shí)施例)在以下實(shí)施例中,主要將搜索對象文本描述為有關(guān)醫(yī)療信息的各種文本數(shù)據(jù)。作為有關(guān)醫(yī)療信息的文本數(shù)據(jù),已知的有計(jì)算機(jī)化的醫(yī)療保健信息以及各種計(jì)算機(jī)化的文本信息,其中計(jì)算機(jī)化的醫(yī)療保健信息例如是電子病歷、臨床流程(clinical pass)、出院小結(jié)(出院摘要),各種計(jì)算機(jī)化的文本信息例如是來自網(wǎng)絡(luò)如互聯(lián)網(wǎng)上的協(xié)會的醫(yī)療報告。與一般文本例如小說不同,醫(yī)療信息文本包括形式是以時間順序(時間序列)排列的事實(shí)的描述的語句。然而,可被根據(jù)本公開實(shí)施例的信息處理裝置和信息處理方法搜索的搜索對象文本不限于與醫(yī)療信息相關(guān)的各種文本數(shù)據(jù),與各類主題相關(guān)的文本數(shù)據(jù)均可被搜索。作為各類主題,已知家電相關(guān)主題、運(yùn)動相關(guān)主題、觀光相關(guān)主題以及烹飪相關(guān)主題。對于存在語言代碼信息(例如,國際醫(yī)療代碼)的主題,可恰當(dāng)?shù)貦z索文本數(shù)據(jù),在語言代碼信息中特定詞或詞組以及給予該詞或詞組的唯一識別信息相互關(guān)聯(lián),例如各類主題中的醫(yī)療信息、有關(guān)家電的信息或所謂的語言本體信息?!茨康摹狄韵略诿枋霰景l(fā)明第一實(shí)施例的信息處理裝置和信息處理方法之前,首先簡述本發(fā)明的該實(shí)施例的目的。已提出多種搜索醫(yī)療信息文本的技術(shù)并投入實(shí)際使用。在一種已投入實(shí)際使用的醫(yī)療信息搜索系統(tǒng)中,使用關(guān)鍵字來進(jìn)行搜索,且可搜索到如包括該關(guān)鍵字的病歷的醫(yī)療信息。然而,盡管在關(guān)鍵字級別上執(zhí)行搜索時可提取包括該關(guān)鍵字的醫(yī)療信息,即使搜索藥物的名稱,也需要用戶從獲得的搜索結(jié)果確定使用該藥物的病例并縮減病例。另外,可通過將多個關(guān)鍵字通過邏輯表達(dá)組合起來、生成搜索詢問并在搜索時使用該搜索詢問來搜索縮減了的信息。然而,在這種情況下,因?yàn)樾枰脩粝ぶ壿嫳磉_(dá)以生成搜索詢問,用戶使用上述系統(tǒng)有難度。日本專利公開第2010-79915號公報中披露了一種利用自然語句進(jìn)行信息搜索的技術(shù),該技術(shù)可應(yīng)用于醫(yī)療信息文本的搜索。然而,在日本專利公開第2010-79915號公報披露的該技術(shù)沒有考慮自然語句中的時間狀態(tài)或者時間流。因此,不能確定藥物治療順序,也不能確定病例是過去的病例還是未來的病例。因此,通過是否包括單詞使用相似度來進(jìn)行搜索。 因此,發(fā)明人認(rèn)真地研究了在搜索如醫(yī)療信息文本等的文本數(shù)據(jù)時對用戶維持操作便捷性的同時縮減信息的技術(shù),以解決上述問題。結(jié)果,發(fā)明人設(shè)計(jì)了一種通過考慮作為信息搜索詢問輸入的自然語句的時間狀態(tài)或時間流,來在維持用戶操作便捷性的情況下縮減信息的技術(shù),如以下所述。根據(jù)本發(fā)明實(shí)施例,提供一種信息處理裝置,包括搜索條件信息獲取單元,用于獲取搜索條件信息,該搜索條件信息為指示用于搜索根據(jù)格結(jié)構(gòu)被結(jié)構(gòu)化的搜索對象文本的搜索條件的文本信息;語言處理單元,用于針對所述搜索條件信息執(zhí)行語言分析處理;結(jié)構(gòu)提取單元,用于使用所述搜索條件信息的語言分析結(jié)果來提取所述搜索條件信息的語句結(jié)構(gòu);搜索表達(dá)式生成單元,用于根據(jù)所述搜索條件信息的所述語句結(jié)構(gòu)生成搜索表達(dá)式,所述搜索表達(dá)式反映用于對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu);以及搜索單元,用于利用生成的搜索表達(dá)式,根據(jù)所述搜索條件信息的語句結(jié)構(gòu)來從所述搜索對象文本搜索與所述搜索條件相匹配的文本。根據(jù)本發(fā)明另一實(shí)施例,提供一種信息處理系統(tǒng),包括信息搜索服務(wù)器,包括用于獲取搜索條件信息的搜索條件信息獲取單元,該搜索條件信息為指示用于搜索根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化后的搜索對象文本的搜索條件的文本信息;用于針對搜索條件信息執(zhí)行語言分析處理的語言處理單元;用于利用搜索條件信息的語言分析結(jié)果來提取搜索條件信息的語句結(jié)構(gòu)的結(jié)構(gòu)提取單元;用于根據(jù)所述搜索條件信息的所述語句結(jié)構(gòu)生成反映用于對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu)的搜索表達(dá)式的搜索表達(dá)式生成單元;以及用于利用所述生成的搜索表達(dá)式,根據(jù)搜索條件信息的語句結(jié)構(gòu)來從搜索對象文本搜索與所述搜索條件相匹配的文本的搜索單元;以及生成所述搜索條件信息并將生成的所述搜索條件信息輸出到信息搜索服務(wù)器的用戶操作終端,其中,所述信息搜索服務(wù)器將關(guān)于從用戶操作終端輸出的搜索條件信息的搜索結(jié)果輸出至用戶操作終端。<信息處理裝置的配置>首先,參照附圖I來對本發(fā)明第一實(shí)施例的信息處理裝置的配置進(jìn)行詳細(xì)描述。圖I為示出根據(jù)該實(shí)施例的信息處理裝置10的配置的框圖。如圖I所示,信息處理裝置10主要包括總控制單元101、搜索對象文本獲取單元103、語言處理單元105、文本結(jié)構(gòu)提取單元107、搜索對象數(shù)據(jù)生成單元109、搜索條件信息獲取單元111、搜索邏輯表達(dá)式生成單元113、數(shù)據(jù)搜索單元115、顯示數(shù)據(jù)選擇單元117、顯示控制單元119以及存儲單元121??偪刂茊卧?01由中央處理單元(CPU)、只讀存儲器(ROM)、隨機(jī)存取存儲器(RAM)以及通信設(shè)備實(shí)現(xiàn)??偪刂茊卧?01是本實(shí)施例中對由信息處理裝置10執(zhí)行的各種處理進(jìn)行總的控制的處理單元。根據(jù)本實(shí)施例的信息處理裝置10實(shí)現(xiàn)的各種功能通過在總控制單元101的控制下由圖I中所示的各個處理單元執(zhí)行處理來實(shí)現(xiàn)。總控制單元101可執(zhí)行各種處理并實(shí)現(xiàn)信息處理裝置10提供的各種功能。搜索對象文本獲取單元103由CPU,ROM, RAM以及通信設(shè)備實(shí)現(xiàn)。搜索對象文本獲取單元103從信息處理裝置10中包括的存儲設(shè)備中的預(yù)設(shè)存儲區(qū)域、可與信息處理裝置10進(jìn)行通信的裝置或者如CD、DVD或藍(lán)光盤的各種記錄介質(zhì)獲取要搜索的文本數(shù)據(jù)(搜索對象文本)。在這種情況下,可與信息處理裝置10進(jìn)行通信的裝置可以是連接到網(wǎng)絡(luò)如因特網(wǎng)、局域網(wǎng)和家庭網(wǎng)絡(luò)的各種裝置,且可以通過各種線纜或無線通信與根據(jù)本實(shí)施例的信息處理裝置10直接連接。 以下,將由搜索對象文本獲取單元103獲取的各種搜索對象文本描述為未根據(jù)格結(jié)構(gòu)(case structure)進(jìn)行結(jié)構(gòu)化的文本(以下稱為非結(jié)構(gòu)化文本)。如果搜索對象文本獲取單元103從預(yù)設(shè)存儲區(qū)域、各種裝置或各種記錄介質(zhì)獲取搜索文本,搜索對象文本獲取單元103將獲取到的數(shù)據(jù)輸出至總控制單元101??偪刂茊卧?01將由搜索對象文本獲取單元103輸出的數(shù)據(jù)輸出至下述語言處理單元105,并開始根據(jù)格結(jié)構(gòu)將非結(jié)構(gòu)化文本結(jié)構(gòu)化的一系列處理。語言處理單元105由CPU、ROM、RAM和通信設(shè)備實(shí)現(xiàn)。語言處理單元105關(guān)于由總控制單元101通知的未結(jié)構(gòu)化文本或者由將在下文描述的搜索條件信息獲取單元111獲取的形成搜索條件信息的各語句使用各種分析方法執(zhí)行語言分析處理。進(jìn)而,根據(jù)本實(shí)施例的信息處理裝置10可分析未結(jié)構(gòu)化文本或包括在搜索條件信息中的各語句的格結(jié)構(gòu),并提取與未結(jié)構(gòu)化文本或形成搜索條件信息的各語句有關(guān)的其他信息。如圖2所示,語言處理單元105進(jìn)一步包括詞素分析單元131,句法分析單元133,語義分析單元135,文本翻譯單元137和詞典文件存儲單元139。詞素分析單元131由CPU、R0M、RAM以及通信設(shè)備實(shí)現(xiàn)。詞素分析單元131是對由總控制單元101通知的各種文本(即非結(jié)構(gòu)化文本以及由用戶輸入的關(guān)于搜索條件的搜索條件信息)進(jìn)行詞素分析的處理單元。因此,由總控制單元101通知的各個文本被劃分為多個詞素。在這種情況下,詞素是實(shí)際語句中表示的最小意義單位。通過將非結(jié)構(gòu)化文本或者關(guān)于搜索條件的文本劃分成詞素單位,可指定語句中包括的單詞的詞類。已提出用于執(zhí)行詞素分析的各種算法,且詞素分析單元131可用任意算法來執(zhí)行詞素分析。如果針對各文本的詞素分析結(jié)束,詞素分析單元131將關(guān)于獲得的分析結(jié)果的信息(關(guān)于語句中包括的單詞和單詞的詞類的信息)輸出至總控制單元101和以下即將描述的句法分析單元133。詞素分析單元131可將關(guān)于獲得的分析結(jié)果的信息存儲到存儲單元121中。信息處理裝置10中包括的各處理單元可適當(dāng)?shù)厥褂门c詞素分析單元131獲得的分析結(jié)果有關(guān)的信息。
句法分析單元133由CPU、R0M、RAM以及通信設(shè)備實(shí)現(xiàn)。句法分析單元133是對由總控制單元101通知的有關(guān)各文本的數(shù)據(jù)執(zhí)行句法分析(解析)的處理單元。句法分析單元133利用與由詞素分析單元131的詞素分析的分析結(jié)果有關(guān)的信息,對形成各文本的語句進(jìn)行語法分析,并將語句劃分成多個短語。因此,可指定各文本中包括的單詞的語法功能,并且可確定單詞和格之間的修飾關(guān)系。已提出用于執(zhí)行句法分析的各種算法,句法分析單元133可用任意算法來進(jìn)行句法分析。由句法分析單元確定的格的類型如下表I所示。表I所示的格為示范性的,可恰當(dāng)?shù)厥褂镁浞ǚ治鰡卧?33采用的算法所輸出的格。[表I]
—................................................格類型.................................................................................... ...............................................................語義功能.......................................................................主格(猶王袼,Agent)__
__ 執(zhí)行操作的場所或位置
時間執(zhí)行操作的時間
—工具騎猶時使用_工具賓格操作的對象源泉操作起始點(diǎn)或初始狀態(tài)--
_B#__搡作.束點(diǎn)或最終狀態(tài)
經(jīng)驗(yàn)者體驗(yàn)操作的經(jīng)驗(yàn)者如果針對由總控制單元101通知的各文本中包括的語句的句法分析結(jié)束,句法分析單元133將關(guān)于獲得的分析結(jié)果的信息(指示語句中的格和單詞之間的對應(yīng)關(guān)系的信息)輸出至總控制單元101和下述語義分析單元135。句法分析單元133可將關(guān)于獲得的分析結(jié)果的信息存儲到存儲單元121中。信息處理裝置10中包括的各處理單元均可恰當(dāng)使用有關(guān)句法分析單元133的句法分析的分析結(jié)果的信息。語義分析單元135由CPU、R0M、RAM和通信設(shè)備實(shí)現(xiàn)。語義分析單元135是對與總控制單元101通知的各文本相關(guān)的數(shù)據(jù)執(zhí)行語義分析的處理單元。語義分析單元135使用與詞素分析單元131和句法分析單元133的分析結(jié)果相關(guān)的信息來分析總控制單元101通知的文本,并指定語句中包括的單詞之間的語義關(guān)系。因此,語義分析單元135可理解由總控制單元101通知的各文本中包括的各語句的概念,并指定有關(guān)各語句的情態(tài)。在這種情況下,情態(tài)示出了主語對語句指示的內(nèi)容的決定或看法。情態(tài)的例子包括表示時態(tài),表示邏輯(與,或,非),表示希望或命令,表示操作的持續(xù)、重復(fù)以及完成。已提出用于執(zhí)行語義分析的各種算法,且語義分析單元135可用任意算法來進(jìn)行語義分析。
如果對各文本的語義分析結(jié)束,語義分析單元135將與獲得的分析結(jié)果相關(guān)的信息輸出至總控制單元101。語義分析單元135可將與獲得的分析結(jié)果相關(guān)的信息存儲到存儲單元121中。如果從詞素分析單元131、句法分析單元133和語義分析單元135中的每個輸出與分析結(jié)果相關(guān)的信息,總控制單元101收集與獲得的分析結(jié)果相關(guān)的信息并將該信息輸出至下述文本結(jié)構(gòu)分析單元107。在詞素分析單元131、句法分析單元133和語義分析單元135對各文本數(shù)據(jù)進(jìn)行分析時,詞素分析單元131、句法分析單元13 3和語義分析單元135可使用存儲在下述詞典文件存儲單元139中的各個詞典文件,或者使用如因特網(wǎng)的網(wǎng)絡(luò)中存在的各種詞典文件。文本翻譯單元137由CPU、R0M、RAM和通信設(shè)備實(shí)現(xiàn)。文本翻譯單元137是關(guān)于總控制單元101通知的各個文本的至少一部分、將用于文本標(biāo)注的語言轉(zhuǎn)換為另一種語言的處理單元。用于文本標(biāo)注的語言的翻譯后語言不受特別限制。但是,可通過將翻譯后的語言設(shè)置為如英語的官方國際語言,從而實(shí)現(xiàn)全球文本搜索。已提出用于執(zhí)行文本翻譯的各種算法,文本翻譯單元137可用任意算法來進(jìn)行翻譯處理。在文本翻譯單元137對各個文本數(shù)據(jù)執(zhí)行翻譯處理時,文本翻譯單元137可使用存儲在下述詞典文件存儲單元139中的各個詞典文件,或者使用如因特網(wǎng)的網(wǎng)絡(luò)上的各種詞典文件。如果對文本的翻譯處理結(jié)束,文本翻譯單元137將有關(guān)獲得的翻譯結(jié)果的信息輸出至總控制單元101中。文本翻譯單元137可將有關(guān)獲得的翻譯結(jié)果的信息存儲到存儲單元121中。語言處理單元105中的各處理單元在執(zhí)行分析處理或翻譯處理時使用的各個詞典文件存儲在詞典文件存儲單元139中。詞典的例子可包括有關(guān)詞素的數(shù)據(jù)庫、單詞詞典、概念詞典。詞典可以由各處理單元共同使用或者可專用于各處理單元。詞典可以是不考慮當(dāng)前文本的類型而使用的多功能詞典,或者也可以是為每個類型的文本準(zhǔn)備且專用于每個類型的詞典。已經(jīng)參照附圖2詳細(xì)描述了根據(jù)本實(shí)施例的信息處理裝置10中包括的語言處理單元105的配置。以下,回到圖I,將描述根據(jù)本實(shí)施例的信息處理裝置10的配置。文本結(jié)構(gòu)提取單元107由CPU、ROM、RAM和通信設(shè)備實(shí)現(xiàn)。文本結(jié)構(gòu)提取單元107使用與總控制單元101通知的非結(jié)構(gòu)化文本或搜索條件信息有關(guān)的語言分析結(jié)果提取非結(jié)構(gòu)化文本或搜索條件信息的語句結(jié)構(gòu)。另外,文本結(jié)構(gòu)提取單元107采用從語言分析結(jié)果獲得的格結(jié)構(gòu)將非結(jié)構(gòu)化文本或形成搜索條件信息的各語句進(jìn)行結(jié)構(gòu)化,并生成結(jié)構(gòu)化數(shù)據(jù)。具體而言,文本結(jié)構(gòu)提取單元107將包括在非結(jié)構(gòu)化文本或形成搜索條件信息的各語句的各個短語與表示各短語功能的信息(例如,表示各短語是名詞短語,動詞短語,謂語從句等的信息)以及表示與各短語相對應(yīng)的格的信息關(guān)聯(lián)起來,并在語言分析結(jié)果的基礎(chǔ)上生成短語信息。另外,文本結(jié)構(gòu)提取單元107基于有關(guān)提取出的語句結(jié)構(gòu)的知識對生成的短語信息進(jìn)行關(guān)聯(lián)。通過該處理,文本結(jié)構(gòu)提取單元107指定非結(jié)構(gòu)化文本或形成搜索條件信息的各語句的謂語結(jié)構(gòu),并對每個語句進(jìn)行結(jié)構(gòu)化。如果存在與搜索對象文本的內(nèi)容相匹配的語言代碼信息,文本結(jié)構(gòu)提取單元107在非結(jié)構(gòu)化文本或搜索條件信息被結(jié)構(gòu)化時使用語言代碼信息來對文本進(jìn)行結(jié)構(gòu)化。在這種情況下,語言代碼信息是詞或者詞組和給予該詞或詞組的唯一識別信息(此處稱為語言代碼)互相關(guān)聯(lián)的信息組。作為語言代碼信息,與特定內(nèi)容有關(guān)地構(gòu)造的各種數(shù)據(jù)庫或關(guān)于特定內(nèi)容的各種本體可作為示例。當(dāng)搜索對象文本或者形成搜索條件信息的語句中的語言代碼信息中包括詞或詞組時,文本結(jié)構(gòu)提取單元107用語言代碼來代替該詞或詞組及短語信息。因此,在語言代碼是國際標(biāo)準(zhǔn)代碼時,標(biāo)注的搖擺可被吸收,且同樣的事實(shí)可以以相同的結(jié)構(gòu)表示而不依賴于語言。結(jié)果,可實(shí)現(xiàn)不依賴于語言的語義概念級別的格結(jié)構(gòu),進(jìn)而對搜索對象文本的搜索準(zhǔn)確性得以提高。
此處,在本實(shí)施例考慮的醫(yī)療相關(guān)主題中,以I⑶-10或SNOMED表示的國際醫(yī)療代碼可用作語言代碼信息。文本結(jié)構(gòu)提取單元107可使用任意系統(tǒng)來表示搜索對象文本或者搜索條件信息的謂語結(jié)構(gòu),如以下將詳細(xì)描述的邏輯表達(dá)式、特征結(jié)構(gòu)系統(tǒng)和全球文件注釋(GDA)系統(tǒng)。當(dāng)文本結(jié)構(gòu)提取單元107對搜索對象文本或者搜索條件信息進(jìn)行結(jié)構(gòu)化時,文本結(jié)構(gòu)提取單元107可能會忽略不包括語言代碼的修飾樹(樹結(jié)構(gòu))。然而,當(dāng)在高等級的修飾樹中存在包括語言代碼的修飾樹時,僅修飾結(jié)構(gòu)將作為結(jié)構(gòu)化之后的數(shù)據(jù)被保留而單詞信息可被忽略。因此,可實(shí)現(xiàn)專用于與語言代碼信息對應(yīng)的主題的結(jié)構(gòu)化。在這種情況下,不忽略修飾樹結(jié)構(gòu)是優(yōu)選的,因?yàn)樾揎棙浣Y(jié)構(gòu)對有關(guān)時間格的搜索處理是有用的。然而,與其它的格信息類似,修飾樹的結(jié)構(gòu)可以被忽略。在比較搜索條件信息的結(jié)構(gòu)化數(shù)據(jù)時,可以忽略或不忽略的格信息可成為比較對象,或從比較對象排除。文本結(jié)構(gòu)提取單元107可以與語言處理單元105協(xié)作地將與時間格相對應(yīng)的符號翻譯成例如英語的官方國際語言(國際標(biāo)準(zhǔn)語言),并保持該標(biāo)注以使得能夠進(jìn)行標(biāo)注級別的比較。如果文本結(jié)構(gòu)提取單元107停止提取語句結(jié)構(gòu)和對文本進(jìn)行結(jié)構(gòu)化,并生成其中謂語結(jié)構(gòu)被表示的結(jié)構(gòu)化數(shù)據(jù),文本結(jié)構(gòu)提取單元107將獲得的結(jié)構(gòu)化數(shù)據(jù)輸出至總控制單元101。搜索對象數(shù)據(jù)生成單元109由CPU、ROM、RAM和通信設(shè)備實(shí)現(xiàn)。搜索對象數(shù)據(jù)生成單元109利用經(jīng)文本結(jié)構(gòu)提取單元107根據(jù)格結(jié)構(gòu)結(jié)構(gòu)化后的文本(結(jié)構(gòu)化文本)來生成文本搜索處理中使用的搜索對象數(shù)據(jù)。如果總控制單元101將關(guān)于搜索對象文本的結(jié)構(gòu)化文本通知至搜索對象數(shù)據(jù)生成單元109,首先,搜索對象數(shù)據(jù)生成單元109對搜索對象文本提供指定搜索對象文本的唯一的識別信息(以下稱為文本識別信息)。另外,搜索對象數(shù)據(jù)生成單元109生成與通知的搜索對象文本有關(guān)的時序事實(shí)數(shù)據(jù)并生成用于搜索由根據(jù)本實(shí)施例的信息處理裝置10管理的搜索對象文本的搜索索引。如圖3所示,搜索對象數(shù)據(jù)生成單元109還包括時序事實(shí)數(shù)據(jù)生成單元141和搜索索引生成單元143。時序事實(shí)數(shù)據(jù)生成單元141由CPU、R0M、RAM和通信設(shè)備實(shí)現(xiàn)。時序事實(shí)數(shù)據(jù)生成單元141基于文本結(jié)構(gòu)提取單元107的處理結(jié)果,從形成關(guān)注的搜索對象文本的語句中提取包括語言代碼的語句,按照語句的出現(xiàn)順序累積與所提取語句相對應(yīng)的謂語結(jié)構(gòu),并生成時序事實(shí)數(shù)據(jù)。時序事實(shí)數(shù)據(jù)生成單元141將唯一的識別信息(以下稱為語句識別信息)提供給形成時序事實(shí)數(shù)據(jù)的每個謂語結(jié)構(gòu)。因此,可使用文本識別信息和語句識別信息來唯一地指定包括在時序事實(shí)數(shù)據(jù)中的各語句。在根據(jù)本實(shí)施例的信息處理裝置10中,形成搜索對象文本的語句的時間序列中的謂語結(jié)構(gòu)的遷移被確定為搜索對象文本的主題的遷移。當(dāng)與時間格對應(yīng)的短語包括在形成文本的語句中時,可考慮時間格的改變來確定主題的遷移。在根據(jù)本實(shí)施例的信息處理裝置10中,可通過生成時序事實(shí)數(shù)據(jù)并在對文本的搜索處理中使用該時序事實(shí)數(shù)據(jù)來容易地搜索基于被指定為搜索條件的主題的遷移的文本。 搜索索引生成單元143由CPU、R0M、RAM和通信設(shè)備實(shí)現(xiàn)。搜索索引生成單元143基于文本結(jié)構(gòu)提取單元107的處理結(jié)果和時序事實(shí)數(shù)據(jù)生成單元141的處理結(jié)果來生成文本搜索處理中使用的搜索索引。根據(jù)結(jié)構(gòu)化后的文本中的語言代碼生成搜索索引,且指定包括某語言代碼的語句的特定信息與該某語言代碼關(guān)聯(lián)。此時,謂語的文本識別信息和語句識別信息用作指定語句的特定信息。也就是說,由搜索索引生成單元143生成的搜索索引用作與每個語言代碼有關(guān)的內(nèi)容信息,其示出各語言代碼、各搜索對象文本和各語句之間的描述關(guān)系。如果總控制單元101將新搜索對象文本的結(jié)構(gòu)化數(shù)據(jù)通知至搜索索引生成單元143,搜索索引生成單元143將用于指定新通知的搜索對象文本中包括的語言代碼或包括該語言代碼的語句的特定信息添加到已有的搜索索引。執(zhí)行上述處理,且生成根據(jù)本實(shí)施例的信息處理裝置10管理的關(guān)于搜索對象文本的搜索索引。包括時序事實(shí)數(shù)據(jù)以及如上所述生成的搜索索引的搜索對象數(shù)據(jù)存儲在預(yù)定的存儲區(qū)域例如存儲單元121內(nèi)。已經(jīng)參照圖3詳細(xì)描述了根據(jù)本實(shí)施例的信息處理裝置10中包括的搜索對象數(shù)據(jù)生成單元109的配置。以下,回到圖I,將描述根據(jù)本實(shí)施例的信息處理裝置10的配置。搜索條件信息獲取單元111由CPU,ROM, RAM,輸入設(shè)備和通信設(shè)備實(shí)現(xiàn)。搜索條件信息獲取單元111獲取搜索條件信息,搜索條件信息是用戶使用輸入設(shè)備如鍵盤、鼠標(biāo)和觸摸筆輸入的文本信息,且示出用于對搜索對象文本進(jìn)行搜索的搜索條件。如果搜索條件信息獲取單元111獲取搜索條件信息,則搜索條件信息獲取單元111將獲取的搜索條件信息輸出至總控制單元101??偪刂茊卧?01將搜索條件信息獲取單元111輸出的搜索條件信息輸出到搜索邏輯表達(dá)式生成單元113。因而,開始了從搜索對象文本搜索與搜索條件匹配的文本的搜索處理。作為搜索表達(dá)式生成單元的例子的搜索邏輯表達(dá)式生成單元113由CPU、ROM和RAM實(shí)現(xiàn)。如果總控制單元101將由搜索條件信息獲取單元111獲得的搜索條件信息通知至搜索邏輯表達(dá)式生成單元113,搜索邏輯表達(dá)式生成單元113通過總控制單元101請求語言處理單元105執(zhí)行對通知的搜索條件信息的語言處理。如果語言處理單元105將搜索條件信息的語言分析結(jié)果通知至搜索邏輯表達(dá)式生成單元113,搜索邏輯表達(dá)式生成單元113通過總控制單元101請求文本結(jié)構(gòu)提取單元107提取搜索條件信息的語句結(jié)構(gòu)。如果文本結(jié)構(gòu)提取單元107將語句結(jié)構(gòu)的分析結(jié)果通知至搜索邏輯表達(dá)式生成單元113,搜索邏輯表達(dá)式生成單元113根據(jù)搜索條件信息的語言分析結(jié)果和搜索條件信息的語句結(jié)構(gòu)生成對搜索對象文本進(jìn)行搜索的搜索邏輯表達(dá)式,搜索對象文本包括搜索條件信息中包括的文本的語句結(jié)構(gòu)。在這種情況下,從搜索條件信息的語言分析結(jié)果和搜索條件信息的語句結(jié)構(gòu)生成搜索邏輯表達(dá)式的處理與通過文本結(jié)構(gòu)提取單元107執(zhí)行的非結(jié)構(gòu)化文本的結(jié)構(gòu)化處理相同。通過該處理,搜索邏輯表達(dá)式生成單元113將與搜索條件信息對應(yīng)的文本進(jìn)行結(jié)構(gòu)化。如果搜索邏輯表達(dá)式生成單元113生成與總控制單元101通知的搜索條件信息對應(yīng)的搜索邏輯表達(dá)式,搜索邏輯表達(dá)式生成單元113將生成的搜索邏輯表達(dá)式輸出至總控 制單元101。總控制單元101將從搜索邏輯表達(dá)式生成單元113輸出的搜索邏輯表達(dá)式輸出至下述數(shù)據(jù)搜索單元115。作為搜索單元的示例的數(shù)據(jù)搜索單元115由CPU、ROM和RAM實(shí)現(xiàn)。數(shù)據(jù)搜索單元115使用搜索邏輯表達(dá)式生成單元113生成的搜索邏輯表達(dá)式,并根據(jù)搜索條件信息的語句結(jié)構(gòu),在搜索對象文本中搜索與搜索條件匹配的文本。當(dāng)搜索條件信息中包括多個語句時,數(shù)據(jù)搜索單元115將包括在搜索條件信息中的語句的謂語結(jié)構(gòu)的遷移確定為搜索條件信息中主題的遷移,并基于主題的遷移對搜索對象文本中與搜索條件匹配的文本進(jìn)行搜索。數(shù)據(jù)搜索單元115可使用與搜索條件信息對應(yīng)的文本的一部分在搜索對象文本的結(jié)構(gòu)單元中執(zhí)行搜索。具體地,數(shù)據(jù)搜索單元115參考由搜索對象數(shù)據(jù)生成單元109生成的搜索索引,并確定搜索邏輯表達(dá)式中包括的語言代碼是否在搜索索引中。當(dāng)搜索邏輯表達(dá)式中包括的語言代碼在搜索索引中時,數(shù)據(jù)搜索單元115參考與語言代碼相關(guān)聯(lián)的特定信息(文本識別信息和語句識別信息)來獲得對應(yīng)語句的結(jié)構(gòu)化數(shù)據(jù)(其中謂語結(jié)構(gòu)被表示的數(shù)據(jù)),并將結(jié)構(gòu)化數(shù)據(jù)作為候選數(shù)據(jù)進(jìn)行累積。如果數(shù)據(jù)搜索單元115參考搜索索引,并提取關(guān)于搜索邏輯表達(dá)式中包括的語言代碼的所有候選,數(shù)據(jù)搜索單元115將由搜索邏輯表達(dá)式表示的結(jié)構(gòu)化數(shù)據(jù)和候選數(shù)據(jù)進(jìn)行比較,并按照具有相似語句結(jié)構(gòu)的數(shù)據(jù)的順序計(jì)算成本(即添加加權(quán)信息)。在這種情況下,全掃描算法,O (ND)算法和O (NP)算法作為比較數(shù)據(jù)搜索單元115使用的數(shù)據(jù)的算法而已知。然而,除了上述算法,還可以采用其他方法。當(dāng)數(shù)據(jù)搜索單元115比較數(shù)據(jù)時,數(shù)據(jù)搜索單元115將與謂語具有直接修飾關(guān)系的語句結(jié)構(gòu)的水平定義為第一水平,將修飾第一水平的各元素的短語定義為第二水平,并將修飾第二水平的定義為第三水平。通過在之后以相同的方式順序執(zhí)行上述處理,數(shù)據(jù)搜索單元115將結(jié)構(gòu)化數(shù)據(jù)分層為多個等級。然后,數(shù)據(jù)搜索單元115對每個等級(水平)的符合率設(shè)置閾值,并計(jì)算搜索邏輯表達(dá)式和候選數(shù)據(jù)的相似度。相似度表示候選數(shù)據(jù)的優(yōu)先級。由數(shù)據(jù)搜索單元115搜索的關(guān)于候選數(shù)據(jù)的信息通過總控制單元101被傳送到顯示數(shù)據(jù)選擇單元117。
作為選擇單元的例子的顯示數(shù)據(jù)選擇單元117由CPU、R0M和RAM實(shí)現(xiàn)。顯示數(shù)據(jù)選擇單元117從數(shù)據(jù)搜索單元115搜索出的文本中選擇作為搜索結(jié)果輸出的文本。例如,顯示數(shù)據(jù)選擇單元117根據(jù)與包括在搜索條件信息中的文本相對應(yīng)的搜索邏輯表達(dá)式的語句結(jié)構(gòu)的相似度,以高相似度(或者低相似度)的順序選擇作為搜索結(jié)果輸出的文本。也就是說,顯示數(shù)據(jù)選擇單元117利用候選數(shù)據(jù)中描述的文本識別信息和語句識別信息在由根據(jù)本實(shí)施例的信息處理裝置10管理的搜索對象文本中搜索文本,并按高相似度(或者低相似度)的順序選擇作為搜索結(jié)果的文本。如果顯示數(shù)據(jù)選擇單元117利用由數(shù)據(jù)搜索單元115檢測的候選數(shù)據(jù)指定與搜索邏輯表達(dá)式相似的語句,顯示數(shù)據(jù)選擇單元117可將出現(xiàn)在與搜索邏輯表達(dá)式相似的語句
之前的語句或者出現(xiàn)在該相似的語句之后的語句作為搜索結(jié)果輸出。此時,顯示數(shù)據(jù)選擇單元117可顯示所有語句或者僅顯示對應(yīng)語句的預(yù)定部分。當(dāng)關(guān)于作為搜索結(jié)果輸出的文本存在用戶指定的語句時,顯示數(shù)據(jù)選擇單元117可關(guān)于在被指定語句之前或之后出現(xiàn)的語句中包括的主題執(zhí)行各種統(tǒng)計(jì)處理,并輸出獲得的統(tǒng)計(jì)處理結(jié)果。具體地,當(dāng)關(guān)于作為搜索結(jié)果輸出的文本存在用戶指定的語句時,顯示數(shù)據(jù)選擇單元117指明在被指定語句之前或之后出現(xiàn)的語句,并將指明的結(jié)果輸出到總控制單元101。總控制單元101分別請求語言處理單元105和文本結(jié)構(gòu)提取單元107關(guān)于顯示數(shù)據(jù)選擇單元117通知的語句執(zhí)行語言分析處理和文本結(jié)構(gòu)提取處理。因此,與上述情況類似,顯示數(shù)據(jù)選擇單元117通知的語句被結(jié)構(gòu)化。如果顯示數(shù)據(jù)選擇單元117獲取關(guān)于出現(xiàn)在由用戶指定的語句之前或之后的語句的結(jié)構(gòu)化數(shù)據(jù),顯示數(shù)據(jù)選擇單元117提取包括在結(jié)構(gòu)化數(shù)據(jù)內(nèi)的語言代碼,并關(guān)于與語言代碼相對應(yīng)的主題執(zhí)行各種統(tǒng)計(jì)處理。此時,顯示數(shù)據(jù)選擇單元117可僅選擇與參考的結(jié)構(gòu)化數(shù)據(jù)中首次出現(xiàn)的語言代碼對應(yīng)的主題作為統(tǒng)計(jì)處理對象,或者選擇與包括在參考的結(jié)構(gòu)化數(shù)據(jù)中的多個語言代碼對應(yīng)的多個主題作為統(tǒng)計(jì)處理對象。當(dāng)顯示數(shù)據(jù)選擇單元117執(zhí)行統(tǒng)計(jì)處理時,顯示數(shù)據(jù)選擇單元117優(yōu)選地將與賓格和謂語中的至少一個相關(guān)聯(lián)的語言代碼作為統(tǒng)計(jì)處理對象的主題進(jìn)行處理。顯示數(shù)據(jù)選擇單元117可選擇與除謂語和賓格之外的其它格相關(guān)聯(lián)的語言代碼作為統(tǒng)計(jì)處理對象,或從統(tǒng)計(jì)處理對象排除該語言代碼。在以上描述中,顯示數(shù)據(jù)選擇單元117基于由用戶指定的搜索結(jié)果的一部分執(zhí)行統(tǒng)計(jì)處理。然而,顯示數(shù)據(jù)選擇單元117可通過顯示控制單元119來顯示搜索條件信息,從顯示的搜索條件信息中指定用戶考慮的部分,并將該部分選擇為統(tǒng)計(jì)處理對象。顯示數(shù)據(jù)選擇單元117可對用戶輸入的作為搜索對象的整個搜索條件信息執(zhí)行統(tǒng)計(jì)處理。顯示數(shù)據(jù)選擇單元117可使用上述方法之外的任何方法來指定統(tǒng)計(jì)處理對象。另外,顯示數(shù)據(jù)選擇單元117可參考由信息處理裝置10存儲的各種數(shù)據(jù),并顯示與搜索結(jié)果對應(yīng)的數(shù)據(jù)。因此,顯示數(shù)據(jù)選擇單元117可顯示與搜索結(jié)果對應(yīng)的圖像數(shù)據(jù)或顯示其他文本數(shù)據(jù)。由顯示數(shù)據(jù)選擇單元117選擇的數(shù)據(jù)或者由統(tǒng)計(jì)處理獲取的數(shù)據(jù)被輸出至總控制單元101,并在下述顯示控制單元119的顯示控制下顯示在顯示設(shè)備(圖中未示出)上,顯示設(shè)備如包括在信息處理裝置10中的顯示器或設(shè)置在可與信息處理裝置10通信的裝置中的顯示設(shè)備(圖中未示出)。顯示控制單元119由CPU、R0M、RAM、輸出設(shè)備和通信設(shè)備實(shí)現(xiàn)。顯示控制裝置119對從搜索對象文本檢測的檢測結(jié)果(例如檢測到的文本或者統(tǒng)計(jì)處理結(jié)果)進(jìn)行顯示控制。顯示控制單元119可對檢測結(jié)果中具有與搜索條件信息相似結(jié)構(gòu)的位置進(jìn)行強(qiáng)調(diào)顯示,或者對檢測結(jié)果中具有與搜索條件信息相似結(jié)構(gòu)的位置之前或之后的位置進(jìn)行強(qiáng)調(diào)顯示。作為強(qiáng)調(diào)處理,對相對應(yīng)位置進(jìn)行反轉(zhuǎn)和顯示的處理或者對相對應(yīng)位置進(jìn)行陰影化和顯示的處理是示例。強(qiáng)調(diào)處理是示例性的,可采用其他已知的強(qiáng)調(diào)方法。存儲單元121是包括在根據(jù)本實(shí)施例的信息處理裝置10中的存儲設(shè)備的例子。由信息處理裝置10保持的實(shí)體數(shù)據(jù)或者搜索對象數(shù)據(jù)的各種語言代碼信息存儲在存儲單元 121中。由語言處理單元105、文本結(jié)構(gòu)提取單元107、搜索對象數(shù)據(jù)生成單元109和顯示數(shù)據(jù)選擇單元117的處理獲取的各種信息存儲在存儲單元121中。各種歷史信息、如與搜索對象文本的搜索結(jié)果相關(guān)的歷史信息可記錄在存儲單元121中。各種數(shù)據(jù)庫和在根據(jù)本實(shí)施例的信息處理裝置10執(zhí)行任意處理或該處理的中間過程時必須存儲的各種參數(shù)被適當(dāng)?shù)赜涗浽诖鎯卧?21中。在存儲單元121中,信息處理單元10的每個處理單元可自由地寫入或讀取數(shù)據(jù)。已經(jīng)描述了根據(jù)本實(shí)施例的信息處理裝置10的功能的例子??赏ㄟ^各種構(gòu)件或電路配置結(jié)構(gòu)組件,還可通過專用于結(jié)構(gòu)元件的功能的硬件來配置結(jié)構(gòu)組件。結(jié)構(gòu)元件的所有功能都可由CPU執(zhí)行。因此,可根據(jù)在執(zhí)行本實(shí)施例時的技術(shù)水平來恰當(dāng)?shù)馗淖兯褂玫呐渲谩S脕韺?shí)現(xiàn)根據(jù)本實(shí)施例的具有上述配置的信息處理裝置的功能的計(jì)算機(jī)程序可被研制并安裝到個人計(jì)算機(jī)上。??商峁┭b有該計(jì)算機(jī)程序的計(jì)算機(jī)可讀記錄介質(zhì)。例如。記錄介質(zhì)可以是磁盤、光盤、磁光盤或閃存。該計(jì)算機(jī)程序可通過網(wǎng)絡(luò)來發(fā)布,而不使用記錄介質(zhì)。根據(jù)本發(fā)明實(shí)施例,提供一種一種信息處理方法,包括獲取搜索條件信息,所述搜索條件信息是指示用于搜索根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化后的搜索對象文本的搜索條件的文本信息;針對搜索條件信息執(zhí)行語言分析處理;利用所述搜索條件信息的語言分析結(jié)果來提取所述搜索條件信息的語句結(jié)構(gòu);根據(jù)所述搜索條件信息的所述語句結(jié)構(gòu)生成反映用于對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu)的搜索表達(dá)式;以及利用所述生成的搜索表達(dá)式,根據(jù)所述搜索條件信息的語句結(jié)構(gòu)來從搜索對象文本搜索與所述搜索條件相匹配的文本。<信息搜索處理的具體例子>接下來,將參照圖4-19來具體描述根據(jù)本實(shí)施例的信息處理裝置10執(zhí)行的信息搜索處理,作為上述信息處理方法的例子。[搜索對象數(shù)據(jù)生成處理]首先,將具體描述搜索對象數(shù)據(jù)生成處理。在以下解釋中,考慮電子病歷、臨床流程、出院小結(jié)表示的計(jì)算機(jī)化的醫(yī)療信息和各種計(jì)算機(jī)化的文本如來自網(wǎng)絡(luò)上的協(xié)會的醫(yī)療報告。
如果信息處理裝置10的搜索對象文本獲取單元103獲取與醫(yī)療信息對應(yīng)的非結(jié)構(gòu)化文本的數(shù)據(jù),搜索對象文本獲取單元103將獲取到的數(shù)據(jù)輸出到總控制單元101??偪刂茊卧?01將從搜索對象文本獲取單元103輸出的關(guān)于醫(yī)療信息的數(shù)據(jù)輸出到語言處理單元105。語言處理單元105使用醫(yī)療信息執(zhí)行詞素、句法、語義分析,并生成各種分析結(jié)果。當(dāng)信息處理裝置10獲取如圖4所示的醫(yī)療信息時,信息處理裝置10對形成如圖4所示的醫(yī)療信息的各語句執(zhí)行語言分析處理,并獲取如圖5A-5C所示的分析結(jié)果。如果圖4所示的非結(jié)構(gòu)化文本由語言處理單元105的詞素分析單元131進(jìn)行分析,如圖5A所示,每個語句被劃分成詞素并指明其詞類。句法分析單元133可利用詞素分析單元131的分析結(jié)果來獲取與如圖5B所示的句法分析結(jié)果(S卩,修飾樹)相關(guān)的知識。語義分析單元135利用詞素分析結(jié)果和句法分析結(jié)果進(jìn)行語義分析,并產(chǎn)生如圖5C所示的結(jié)果O如果語言處理單元105生成如圖5A到5C所示的分析結(jié)果,語言處理單元105將生成的分析結(jié)果輸出到文本結(jié)構(gòu)提取單元107。文本結(jié)構(gòu)提取單元107基于分析結(jié)果對語句進(jìn)行結(jié)構(gòu)化。因此,語句被結(jié)構(gòu)化,且生成作為與搜索匹配的邏輯表達(dá)式的邏輯表達(dá)式數(shù)據(jù)?!だ?,在非結(jié)構(gòu)化文本中存在圖6的上部示出的語句“他在五年前患上了左心室前壁心肌梗塞,從而被收治住院”。該語句由語言處理單元105分析,且指明圖6中部所示的修飾樹和格結(jié)構(gòu)。文本結(jié)構(gòu)提取單元107利用知識生成如圖6下部所示的邏輯表達(dá)式數(shù)據(jù)。在圖6下部所示的邏輯表達(dá)式數(shù)據(jù)中,括號“ {} ”表示短語的修飾關(guān)系,圓括號“ O ”表示短語的信息。如圖6所示,短語的信息包括短語的特定標(biāo)注、有關(guān)短語的詞類的信息的短語/[目息、表不該短語的格的格彳目息及其屬性。文本結(jié)構(gòu)提取單元107使用在存儲單元121中存儲的作為語言代碼信息的國際醫(yī)療代碼吸收標(biāo)注的搖擺。如圖7所示,文本結(jié)構(gòu)提取單元107用“T32600”來代替短語“他的左心室前壁”,使用與短語“左心室”相關(guān)聯(lián)的語言代碼作為該短語的較高概念。因?yàn)槭境龆陶Z“他的左心室前壁”是“名詞短語”的信息可能不能利用國際醫(yī)療代碼來保存,與對應(yīng)部分相對應(yīng)的短語信息被轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)“(T32600,形容名詞)”。同樣地,文本結(jié)構(gòu)提取單元107用標(biāo)識號“ [I⑶-9=410,M54700] ”代替短語“心肌梗塞”,用標(biāo)識號“P0020”代替短語“被收治住院”。這樣,在根據(jù)本實(shí)施例的信息處理裝置10中,符號的搖擺可使用作為語言代碼信息的國際醫(yī)療代碼被吸收,并且具有相同含義的標(biāo)注如“入院”和“被收治住院”可用國際醫(yī)療代碼“P0020”來表示。文本結(jié)構(gòu)提取單元107可在與語言處理單元105協(xié)作時使用與時間短語“五年前”相對應(yīng)的日語短語。然而,文本結(jié)構(gòu)提取單元107可用作為國際標(biāo)準(zhǔn)語言的英語的短語如“five years ago”來代替日語短語,并存儲該英語短語。這樣,由于文本結(jié)構(gòu)提取單元107基于非結(jié)構(gòu)化文本生成的結(jié)構(gòu)化數(shù)據(jù)表示不基于語言的語義概念水平的格結(jié)構(gòu),同樣的事實(shí)可用相同的結(jié)構(gòu)表示而不依賴于語言。圖8示出了與圖6和圖7所示的日語有相同內(nèi)容的英語的結(jié)構(gòu)化示例。然而,與日語的情況相似,該內(nèi)容可被結(jié)構(gòu)化。
如圖6和圖7所示,當(dāng)使用國際醫(yī)療代碼執(zhí)行結(jié)構(gòu)化時,可忽略不包括國際醫(yī)療代碼的修飾樹。圖7中的部分“(,原因格)”對應(yīng)于相對應(yīng)的部分,較高級的修飾結(jié)構(gòu)與作為原因格的謂語相連接。對每個語句執(zhí)行結(jié)構(gòu)化處理,并關(guān)于每個語句生成其中圖7所示的謂語結(jié)構(gòu)被表示的結(jié)構(gòu)化數(shù)據(jù)。接著,搜索對象數(shù)據(jù)生成單元109的時序事實(shí)數(shù)據(jù)生成單元141以語句的出現(xiàn)順序排列并累積已生成的結(jié)構(gòu)化數(shù)據(jù)中包括國際醫(yī)療代碼的數(shù)據(jù),并生成時序事實(shí)數(shù)據(jù)。例如,如圖9的上部所示,當(dāng)存在三個包括國際醫(yī)療代碼的語句時,時序事實(shí)數(shù)據(jù)生成單元141按順序累積其中與各語句對應(yīng)的謂語結(jié)構(gòu)被表示的結(jié)構(gòu)化數(shù)據(jù),并生成如圖9的下部所示的時序事實(shí)數(shù)據(jù)。搜索索引生成單元143參考由文本結(jié)構(gòu)提取單元107生成的結(jié)構(gòu)化數(shù)據(jù),并提取包括國際醫(yī)療代碼的結(jié)構(gòu)化數(shù)據(jù)。然后,搜索索引生成單元143將指明包括國際醫(yī)療代碼的結(jié)構(gòu)化數(shù)據(jù)的特定信息添加到與包括在搜索索引中提取的結(jié)構(gòu)化數(shù)據(jù)中的國際醫(yī)療數(shù) 據(jù)相對應(yīng)的欄。例如,當(dāng)國際醫(yī)療代碼“T32600”包括在與“Text_ID=17,Sentence_ID=4”對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)中時,搜索索引生成單元143重新將“Text_ID=17,SentenCe_ID=4”作為特定信息與搜索索引的國際醫(yī)療代碼“T32600”相關(guān)聯(lián)。對全部搜索對象文本執(zhí)行相同的處理,并生成如圖10所示的、由信息處理裝置10管理的關(guān)于搜索對象文本的搜索索引。通過上述處理,完成了對搜索對象文本進(jìn)行搜索時使用的數(shù)據(jù)的準(zhǔn)備。上述處理可以在線執(zhí)行或者離線執(zhí)行。可以通過從現(xiàn)有電子病歷系統(tǒng)或者網(wǎng)站上的數(shù)據(jù)進(jìn)行克隆來累積用作搜索對象文本的數(shù)據(jù)。[自然語句輸入的搜索處理]接下來,將詳細(xì)描述上述處理生成的搜索對象數(shù)據(jù)的利用。首先,詳細(xì)描述作為第一利用方法的自然語句輸入的搜索處理。如果信息處理裝置10的用戶使用如鍵盤、鼠標(biāo)或觸摸板的輸入設(shè)備輸入搜索條件信息,搜索條件信息獲取單元111獲取該輸入的搜索條件信息,并將該搜索條件信息輸出至總控制單元101。搜索條件信息可以是一般關(guān)鍵字,或者是一個以上的自然語句。如果搜索條件信息獲取單元111將搜索條件信息通知至總控制單元101,總控制單元101將搜索條件信息輸出至搜索邏輯表達(dá)式生成單元113。搜索邏輯表達(dá)式生成單元113請求語言處理單元105和文本結(jié)構(gòu)提取單元107針對總控制單元101通知的搜索條件信息分別執(zhí)行語言處理和結(jié)構(gòu)提取處理。然后,搜索邏輯表達(dá)式生成單元113基于語言處理單元105和文本結(jié)構(gòu)提取單元107的處理結(jié)果生成搜索邏輯表達(dá)式,該搜索邏輯表達(dá)式為搜索處理中使用的結(jié)構(gòu)化搜索條件語句。例如,當(dāng)圖11所示的文本“因心肌梗塞而住院”作為搜索條件信息被輸入時,搜索邏輯表達(dá)式生成單元113利用語言處理單元105和文本結(jié)構(gòu)提取單元107的處理結(jié)果來生成如圖11下部所示的搜索邏輯表達(dá)式。如果搜索邏輯表達(dá)式生成單元113生成搜索邏輯表達(dá)式,搜索邏輯表達(dá)式生成單元113將生成的搜索邏輯表達(dá)式輸出至總控制單元??偪刂茊卧?01將獲得的搜索邏輯表達(dá)式輸出到數(shù)據(jù)搜索單元115并請求數(shù)據(jù)搜索單元115啟動數(shù)據(jù)搜索處理。數(shù)據(jù)搜索單元115基于包括在圖11中的搜索邏輯表達(dá)式中的國際醫(yī)療代碼來搜索存儲在存儲單元121中的搜索索引,獲取目標(biāo)語句的結(jié)構(gòu)化數(shù)據(jù),并將結(jié)構(gòu)化數(shù)據(jù)作為如圖12所示的候選數(shù)據(jù)來累積。如果數(shù)據(jù)搜索單元115參考存儲在存儲單元121中的搜索索引并提取所有候選,數(shù)據(jù)搜索單元115比較搜索邏輯表達(dá)式與作為候選數(shù)據(jù)存儲的結(jié)構(gòu)化數(shù)據(jù),并按照具有相似語句結(jié)構(gòu)的數(shù)據(jù)的順序進(jìn)行加權(quán)。圖13示出了用O(ND)算法來比較搜索邏輯表達(dá)式和候選數(shù)據(jù)的例子。在圖13所示的例子中,可以看出國際醫(yī)療代碼“[I⑶-9=410,M54700]”,短語信息“(,原因格)”和國際醫(yī)療代碼“P0020”相互匹配。數(shù)據(jù)搜索單元115執(zhí)行分層來將與謂語(B卩,短語信息“(P0020,過去時)”)具有直接修飾關(guān)系的水平定義為第一水平,將修飾第一水平中每個元素的短語定義為第二水平,并將修飾第二水平的定義為第三水平。此外,對每個水平處的符合率設(shè)定閾值,驗(yàn)證相似度并將該相似度用作加權(quán)分?jǐn)?shù)。數(shù)據(jù)搜索單元115將如上所述執(zhí)行了加權(quán)(或者說,優(yōu)先級化)后的候選數(shù)據(jù)通過總控制單元101輸出至顯示數(shù)據(jù)選擇單元117。
顯示數(shù)據(jù)選擇單元117基于文本的標(biāo)識和語句的標(biāo)識,從醫(yī)療信息文本中以候選數(shù)據(jù)中具有高優(yōu)先級的候選數(shù)據(jù)的順序搜索文本,并將該文本輸出至顯示控制單元119。當(dāng)顯示控制單元119顯示由顯示數(shù)據(jù)選擇單元117選擇的文本時,如圖14所示,顯示控制單元119針對與用戶輸入的搜索條件信息相對應(yīng)的位置執(zhí)行強(qiáng)調(diào)處理如陰影化、顏色改變和加粗,并顯示搜索結(jié)果以清晰化匹配的部分。通過按照以上流程執(zhí)行處理,可實(shí)現(xiàn)自然語句輸入進(jìn)行的文本信息搜索。在以上例子中,按照具有高優(yōu)先級的數(shù)據(jù)的順序顯示數(shù)據(jù)。然而,也可以按照具有低優(yōu)先級的數(shù)據(jù)的順序顯示數(shù)據(jù)。在根據(jù)本實(shí)施例的信息搜索方法中,形成搜索對象文本的語句的謂語結(jié)構(gòu)的遷移被認(rèn)為是主題的遷移,且考慮主題的遷移執(zhí)行搜索處理。為此,在根據(jù)本實(shí)施例的信息搜索方法中,包括具有配置“語句A —語句B —語句C —語句D —語句E”的五個語句的搜索對象文本與包括具有配置“語句A —語句B —語句D —語句C —語句E”的五個語句的搜索對象文本被識別為不同的搜索對象文本。同樣地,在根據(jù)本實(shí)施例的信息搜索方法中,包括具有配置“語句A —語句B —語句C —語句D —語句E”的五個語句的搜索對象文本與包括具有配置“語句A —語句B —語句B’ 一語句C —語句C’ 一語句D—〉語句E”的七個語句的搜索對象文本被識別為不同的搜索對象文本。為此,在根據(jù)本實(shí)施例的信息搜索方法中,可實(shí)現(xiàn)信息的縮減,而不考慮是否使能了自然語句進(jìn)行的信息搜索。[相似病例的搜索處理]根據(jù)本實(shí)施例的信息搜索方法可實(shí)現(xiàn)自然語句進(jìn)行的文本搜索,其中可如上所述通過利用自然語句的搜索來縮減信息。在根據(jù)本實(shí)施例的信息處理裝置中,可將多個語句設(shè)置為搜索條件信息。因此,作為搜索條件信息輸入示出被關(guān)注病例的經(jīng)過的多個語句。在根據(jù)本實(shí)施例的信息搜索方法中,由于如上所述執(zhí)行考慮了語句的謂語結(jié)構(gòu)的遷移的信息搜索,可以實(shí)現(xiàn)對其中發(fā)現(xiàn)有與搜索條件信息相同經(jīng)過的病例的搜索(即相似病例的搜索)。在這種情況下,以與“通過自然語句進(jìn)行的搜索處理”相同的方式,根據(jù)本實(shí)施例的信息處理裝置10針對包括在搜索條件信息中的多個語句中的每個來生成搜索邏輯表達(dá)式,并生成候選數(shù)據(jù)。然后,以與“通過自然語句進(jìn)行的搜索處理”相同的方式,執(zhí)行優(yōu)先級化,且按具有高優(yōu)先級的數(shù)據(jù)的順序顯示數(shù)據(jù)??蓪︼@示在信息處理裝置10的顯示屏上的文本(例如,網(wǎng)站上的文本)執(zhí)行相似病例的搜索處理,且如圖15所示,可對存儲在信息處理裝置10或網(wǎng)絡(luò)上的各種裝置的存儲設(shè)備中的數(shù)據(jù)執(zhí)行相似病例的搜索處理。在這種情況下,如圖15所示,搜索對象文本可通過指定目錄或文件來被指定。[經(jīng)過預(yù)測處理]對病例的經(jīng)過預(yù)測或?qū)︶t(yī)療方法的搜索可使用根據(jù)本實(shí)施例的信息搜索方法來執(zhí)行。如上所述,對相似病例的搜索可使用根據(jù)本實(shí)施例的信息搜索方法來實(shí)現(xiàn)。在這種情況下,信息處理裝置10的用戶可指定顯示在顯示屏上的任意醫(yī)療信息文本信息的一 部分,關(guān)于與之前病例相似的病例搜索指定點(diǎn)之后的其他相似病例的醫(yī)療方法,且可提供 醫(yī)療方法。例如,如果用戶通過如鼠標(biāo)的輸入設(shè)備指定了如圖16所示顯示的文本的一部分,搜索條件信息獲取單元111部分地選擇用戶指定的區(qū)域中包括的語句,并使用該部分作為搜索條件信息。此時,搜索條件信息獲取單元111可僅選擇指定語句(點(diǎn))或選擇位于該指定語句之前或之后的語句。選擇出的語句以與上述例子相同的方式被分析,并被轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)(即搜索邏輯表達(dá)式)。在圖16所示的例子中,文段“他因心肌梗塞被收治住院”被選擇并用作搜索條件信息。然后,與上述例子相同的方式,基于搜索條件信息生成搜索邏輯表達(dá)式,利用生成的搜索邏輯表達(dá)式生成候選數(shù)據(jù),且顯示搜索結(jié)果。在該應(yīng)用例子的情況下,與搜索條件信息相似的點(diǎn)被顯示為搜索結(jié)果,且顯示該相似病例之后出現(xiàn)的語句。因此,可將“在搜索到的醫(yī)療信息文本中描述的以下醫(yī)療處理”這一內(nèi)容提供給用戶。例如,如圖17所示,當(dāng)出現(xiàn)在圖16中指定的語句之前的語句相似時,從出現(xiàn)在指定語句之后的醫(yī)療處理起始的語句被顯示為搜索結(jié)果。此時,使用與上述方法相同的評價方法對所有顯示的文本進(jìn)行加權(quán)并提供給用戶。在圖17所示的例子中,當(dāng)出現(xiàn)在指定語句之前的語句的病例相似時,提供與出現(xiàn)在指定語句之后的醫(yī)療處理相關(guān)的文本。然而,對在指定語句后出現(xiàn)的語句的病例的相似度已被驗(yàn)證、且搜索出現(xiàn)在指定語句之前的記錄的情況,可執(zhí)行相同的處理。在圖17所示的例子中,顯示搜索的醫(yī)療信息文本的語句。然而,如圖18所示,不顯示語句,僅收集和顯示醫(yī)療主題(即,執(zhí)行的醫(yī)療處理)。另外,可通過組合醫(yī)療主題和語句來提供醫(yī)療主題和源文本二者。[搜索結(jié)果的預(yù)測分析]接著,將描述作為根據(jù)本實(shí)施例的信息搜索方法的另一種應(yīng)用方法的預(yù)測分析。已描述了作為根據(jù)本實(shí)施例的信息搜索方法的利用方法的預(yù)測顯示。然而,對其它類似病例,顯示相似病例中的以下醫(yī)療處理并提供隨后的醫(yī)療處理的統(tǒng)計(jì)信息。S卩,當(dāng)總控制單元101請求顯示數(shù)據(jù)選擇單元117基于用戶輸入執(zhí)行預(yù)測分析時,顯示數(shù)據(jù)選擇單元117指定由經(jīng)過(passage)的預(yù)測處理功能指定的醫(yī)療文本中的、出現(xiàn)在用戶指定的語句之前的語句,并將該指定的結(jié)果輸出至總控制單元101。以與上述情況相同的方式將指定的語句轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),并將該結(jié)構(gòu)化數(shù)據(jù)傳送至顯示數(shù)據(jù)選擇單元117。顯示數(shù)據(jù)選擇單元117從傳送的結(jié)構(gòu)化數(shù)據(jù)中提取第一出現(xiàn)的醫(yī)療主題,獲取統(tǒng)計(jì)信息,并對各種隨后的醫(yī)療處理進(jìn)行分類。圖19示出了如上所述被分類的醫(yī)療主題的例子。在圖19所示的例子中,對在用戶指定語句之后的語句中首次出現(xiàn)的一個醫(yī)療主題進(jìn)行統(tǒng)計(jì)處理。然而,可以對多個醫(yī)療主題進(jìn)行統(tǒng)計(jì)處理??煽紤]或忽略在作為醫(yī)療主題的謂語中包括賓格之外的格的事物。然而,在賓格和謂語中的至少一個中包括醫(yī)療信息的事物優(yōu)選地作為醫(yī)療主題來處理。實(shí)現(xiàn)了預(yù)測處理,且請求相似病例中在其他病例中支持的醫(yī)療處理的分布,并在學(xué)習(xí)醫(yī)療護(hù)理的學(xué)生尋找隨后的醫(yī)療處理的可能性時作為有用信息提供。已參照圖4-19描述了由根據(jù)本實(shí)施例的信息處理裝置10執(zhí)行的信息搜索方法的具體例子。<信息處理方法的流程> 下面,將參照圖20至22簡單描述由根據(jù)本實(shí)施例的信息處理裝置10執(zhí)行的信息處理方法的流程。[搜索對象數(shù)據(jù)生成處理]首先將參照圖20簡單描述搜索對象數(shù)據(jù)生成處理的流程的例子。首先,信息處理裝置10的搜索對象文本獲取單元103基于搜索對象文本,從存在相對應(yīng)數(shù)據(jù)的位置獲取非結(jié)構(gòu)化文本的數(shù)據(jù)(步驟S101),并將該數(shù)據(jù)輸出至總控制單元101。接著,總控制單元101將獲得的非結(jié)構(gòu)化文本的數(shù)據(jù)輸出至語言處理單元105,語言處理單元105對形成總控制單元101通知的非結(jié)構(gòu)化文本的語句中的每個進(jìn)行分析(步驟 S103)。如果對非結(jié)構(gòu)化文本的語言分析處理結(jié)束,語言處理單元105將獲得的處理結(jié)果經(jīng)總控制單元101輸出至文本結(jié)構(gòu)提取單元107。文本結(jié)構(gòu)提取單元107利用語言處理單元105的分析結(jié)果,對形成非結(jié)構(gòu)化文本的各語句進(jìn)行結(jié)構(gòu)化(步驟S105),并獲得結(jié)構(gòu)化數(shù)據(jù)。接下來,搜索對象數(shù)據(jù)生成單元109中的時序事實(shí)數(shù)據(jù)生成單元141利用文本結(jié)構(gòu)提取單元107生成的結(jié)構(gòu)化數(shù)據(jù)生成時序事實(shí)數(shù)據(jù)(步驟S107)。當(dāng)生成時序事實(shí)數(shù)據(jù)時,搜索對象數(shù)據(jù)生成單元109中的搜索索引生成單元143生成搜索索引(步驟S109)。通過根據(jù)上述流程執(zhí)行處理,可基于非結(jié)構(gòu)化文本生成搜索對象數(shù)據(jù)。[文本搜索處理的流程]接下來,將參照圖21簡單描述搜索對象文本的搜索處理的流程的例子。首先,信息處理裝置10的搜索條件信息獲取單元111獲取用戶使用各種輸入設(shè)備輸入的搜索條件信息(步驟S121),并將獲取的搜索條件信息輸出到總控制單元101。接著,總控制單元101將由搜索條件信息獲取單元111輸出的搜索條件信息輸出至搜索邏輯表達(dá)式生成單元113。搜索邏輯表達(dá)式生成單元113請求語言處理單元105和文本結(jié)構(gòu)提取單元107分別執(zhí)行對搜索條件信息的語言分析處理和對語句結(jié)構(gòu)的提取處理。進(jìn)而,可對搜索條件信息進(jìn)行分析(步驟S123)。如果語言處理單元105和文本結(jié)構(gòu)提取單元107的每個都將分析結(jié)果通知至搜索邏輯表達(dá)式生成單元113,搜索邏輯表達(dá)式生成單元113利用獲得的分析結(jié)果生成搜索邏輯表達(dá)式(步驟S125)。然后,搜索邏輯表達(dá)式生成單元113將生成的搜索邏輯表達(dá)式經(jīng)總控制單元101輸出至數(shù)據(jù)搜索單元115。接著,數(shù)據(jù)搜索單元115利用搜索邏輯表達(dá)式生成單元113生成的搜索邏輯表達(dá)式,對搜索索引進(jìn)行搜索(步驟S127),并生成候選數(shù)據(jù)。然后,數(shù)據(jù)搜索單元115將生成的候選數(shù)據(jù)經(jīng)總控制單元101輸出至顯示數(shù)據(jù)選擇單元117。接著,顯示數(shù)據(jù)選擇單元117使用從數(shù)據(jù)搜索單元115輸出的候選數(shù)據(jù)來選擇被顯示的搜索結(jié)果,并根據(jù)用戶操作或者初始設(shè)置項(xiàng)來選擇搜索結(jié)果的顯示格式(步驟S129)。然后,顯示數(shù)據(jù)選擇單元117請求顯示控制單元119顯示搜索結(jié)果。顯示控制單元119根據(jù)來自顯示數(shù)據(jù)選擇單元117的請求進(jìn)行顯示控制且搜索結(jié)果被顯示給用戶(步驟S131)。[主題的統(tǒng)計(jì)處理的流程]
接著,將參照圖22簡單描述對包括在搜索對象文本的搜索結(jié)果中的主題進(jìn)行的統(tǒng)計(jì)處理的流程的例子。首先,信息處理裝置10的搜索條件信息獲取單元111獲取由用戶使用各種輸入設(shè)備輸入的搜索條件信息(步驟S141),并將獲取的搜索條件信息輸出到總控制單元101。接著,總控制單元101將從搜索條件信息獲取單元111輸出的搜索條件信息輸出至搜索邏輯表達(dá)式生成單元113。搜索邏輯表達(dá)式生成單元113請求語言處理單元105和文本結(jié)構(gòu)提取單元107分別執(zhí)行對搜索條件信息的語言分析處理和對語句結(jié)構(gòu)的提取處理。從而搜索條件信息被分析(步驟S143)。如果語言處理單元105和文本結(jié)構(gòu)提取單元107中的每個都將分析結(jié)果通知至搜索邏輯表達(dá)式生成單元113,搜索邏輯表達(dá)式生成單元113利用獲取的分析結(jié)果來生成搜索邏輯表達(dá)式(步驟S145)。然后,搜索邏輯表達(dá)式生成單元113將生成的搜索邏輯表達(dá)式經(jīng)總控制單元101輸出至數(shù)據(jù)搜索單元115。接著,數(shù)據(jù)搜索單元115利用由搜索邏輯表達(dá)式生成單元113生成的搜索邏輯表達(dá)式對搜索索引進(jìn)行搜索(步驟S147),并生成候選數(shù)據(jù)。然后,數(shù)據(jù)搜索單元115將生成的候選數(shù)據(jù)經(jīng)總控制單元101輸出至顯示數(shù)據(jù)選擇單元117。接著,顯示數(shù)據(jù)選擇單元117利用從數(shù)據(jù)搜索單元115輸出的候選數(shù)據(jù)選擇顯示的搜索結(jié)果,并根據(jù)用戶操作或初始設(shè)置項(xiàng)來選擇搜索結(jié)果的顯示格式(步驟S149)。然后,顯示數(shù)據(jù)選擇單元117請求顯示控制單元119顯示搜索結(jié)果。顯示控制單元119根據(jù)顯示數(shù)據(jù)選擇單元117的請求執(zhí)行顯示控制,且針對用戶顯示搜索結(jié)果(步驟S151)。然后,如果搜索結(jié)果的一部分被用戶指定,并且請求統(tǒng)計(jì)處理的執(zhí)行,顯示數(shù)據(jù)選擇單元117利用以上描述的方法指明用戶指定位置之前(或之后)的主題,并執(zhí)行各種統(tǒng)計(jì)處理(步驟S153)。然后,顯示數(shù)據(jù)選擇單元117將獲得的統(tǒng)計(jì)處理結(jié)果輸出至顯示控制單元119,并請求顯示控制單元119顯示統(tǒng)計(jì)處理結(jié)果。顯示控制單元119根據(jù)顯示數(shù)據(jù)選擇單元117的請求執(zhí)行顯示控制,且統(tǒng)計(jì)處理結(jié)果被顯示給用戶(步驟S155)。在以上描述中,顯示數(shù)據(jù)選擇單元117基于用戶指定的搜索結(jié)果的一部分執(zhí)行統(tǒng)計(jì)處理。然而,如上所述,顯示數(shù)據(jù)選擇單元117可對整個搜索條件信息或者搜索條件信息中用戶指定的部分執(zhí)行統(tǒng)計(jì)處理。以上參照圖20至22簡單描述了根據(jù)本實(shí)施例的信息處理方法的流程的例子。
<第一改進(jìn)>如上所述,根據(jù)本實(shí)施例的信息處理裝置10主要具有三種語言處理功能例如詞素分析、句法分析和語義分析的各種分析功能和翻譯功能,生成使用搜索對象文本搜索信息時使用的搜索對象數(shù)據(jù)的搜索對象數(shù)據(jù)生成功能,以及基于搜索條件信息對搜索對象文本進(jìn)行搜索的信息搜索功能。該三個主要功能可以如上所述包括在一個裝置中,或分布和包括在網(wǎng)絡(luò)上的多個裝置(例如各種服務(wù)器)中??汕‘?dāng)?shù)卦O(shè)置分布到多個裝置的處理單元的組合。例如,如圖23所示,由根據(jù)本實(shí)施例的信息處理裝置10所實(shí)現(xiàn)的功能可被分布到如因特網(wǎng)的網(wǎng)絡(luò)上的三種服務(wù)器,且可實(shí)現(xiàn)文本搜索服務(wù)。也就是說,信息處理裝置10中的搜索對象數(shù)據(jù)生成功能和信息搜索功能可包括在網(wǎng)絡(luò)上的信息搜索服務(wù)器20中,且上述信息搜索處理可使用文本管理服務(wù)器30管理的結(jié)構(gòu)化文本、與包括在語言處理服務(wù)器40中的語言處理功能協(xié)作地實(shí)現(xiàn)。

在這種情況下,如個人電腦、移動電話、智能電話或便攜式游戲機(jī)的用戶操作終端50可至少具有利用各種輸入設(shè)備獲取搜索條件信息,將搜索條件信息通知至信息搜索服務(wù)器20的功能,以及顯示從信息搜索服務(wù)器20輸出的搜索結(jié)果的顯示控制功能。(硬件配置)接著,將參考圖24詳細(xì)說明根據(jù)本公開的實(shí)施例的信息處理裝置10的硬件配置。圖24為示出根據(jù)本公開的實(shí)施例的信息處理裝置10的硬件配置的框圖。信息處理裝置10主要包括CPU 901,ROM 903和RAM 905。信息處理裝置10還包括主機(jī)總線907、橋909、外部總線911、接口 913、輸入設(shè)備915、輸出設(shè)備917、存儲設(shè)備919、驅(qū)動器921、連接端口 923和通信設(shè)備925。CPU 901用作算術(shù)處理設(shè)備和控制設(shè)備,并根據(jù)記錄在ROM 903,RAM 905,存儲設(shè)備919和可移除記錄介質(zhì)927中的各種程序控制信息處理裝置10整個或部分的操作。ROM903存儲CPU 901使用的程序或者算術(shù)參數(shù)。RAM 905主要存儲CPU 901使用的程序和在程序執(zhí)行過程中適當(dāng)變化的參數(shù)。這些結(jié)構(gòu)元件通過使用如CPU總線的內(nèi)部總線配置的主機(jī)總線907互相連接。主機(jī)總線907通過橋909連接到如外設(shè)結(jié)構(gòu)元件互聯(lián)/接口(PCI)的外部總線911。輸入設(shè)備915是由用戶操作的操作單元,如鼠標(biāo)、鍵盤、觸摸板、按鈕、開關(guān)或控制桿。輸入設(shè)備915可以是采用紅外線或者其它電波的遠(yuǎn)程控制器單元(所謂的遠(yuǎn)程控制器),或者是與信息處理裝置10的操作相對應(yīng)的外部連接裝置929,如移動電話或PDA。輸入設(shè)備915使用如下輸入控制電路來配置,該輸入控制電路基于用戶使用操作單元輸入的信息生成輸入信號并將該輸入信號輸出到CPU 901。信息處理裝置10的用戶操作輸入設(shè)備915且可將各種數(shù)據(jù)輸入到信息處理裝置10或指示信息處理裝置10執(zhí)行處理操作。輸出設(shè)備917使用可在視覺上或聽覺上通知用戶獲取的信息的設(shè)備來配置。作為該設(shè)備,如CRT顯示設(shè)備、液晶顯示設(shè)備、等離子體顯示設(shè)備、EL顯示設(shè)備或燈的顯示設(shè)備,如揚(yáng)聲器或頭戴耳機(jī)、打印機(jī)設(shè)備、移動電話和傳真機(jī)的聲音輸出設(shè)備是不例。輸出設(shè)備917輸出由信息處理裝置10執(zhí)行的各種處理獲得的結(jié)果。具體地,顯示設(shè)備以文本或圖像的形式顯示由信息處理設(shè)備10執(zhí)行的各種處理獲得的結(jié)果。聲音輸出設(shè)備將包括再現(xiàn)的聲音數(shù)據(jù)或聲學(xué)數(shù)據(jù)的音頻信號轉(zhuǎn)換為模擬信號并輸出該模擬信號。存儲設(shè)備919是作為信息處理裝置10的存儲單元的例子而配置的數(shù)據(jù)存儲設(shè)備。使用如硬盤驅(qū)動器(HDD)、半導(dǎo)體存儲設(shè)備、光學(xué)存儲設(shè)備或者磁光存儲設(shè)備的磁存儲設(shè)備來配置存儲設(shè)備919。存儲設(shè)備919存儲由CPU 901執(zhí)行的程序或各種數(shù)據(jù)和從外部獲得的各種數(shù)據(jù)。驅(qū)動器921是用于記錄介質(zhì)的讀/寫器,且嵌入在信息處理裝置10中或從外部附著。驅(qū)動器921讀取記錄在已安裝的可拆卸記錄介質(zhì)927中的信息,并將該信息輸出到RAM905,該已安裝的可拆卸記錄介質(zhì)例如是磁盤、光盤、磁光盤或者半導(dǎo)體存儲器。驅(qū)動器921可將信息寫入到已安裝的可拆卸記錄介質(zhì)927,如磁盤、光盤、磁光盤或者半導(dǎo)體存儲器中??刹鹦队涗浗橘|(zhì)為DVD介質(zhì),HD-DVD介質(zhì)或者藍(lán)光介質(zhì)??刹鹦队涗浗橘|(zhì)927還可以是緊湊型閃存(CF)(注冊商標(biāo)),快閃存儲器,或者安全數(shù)字(SD)存儲卡??刹鹦队涗浗橘|(zhì)927可以是以非接觸型IC芯片安裝的集成電路卡(IC卡)或者電子裝置。連接端口 923為用于將裝置直接連接到信息處理裝置10的端口。通用串行總線 (USB)端口,IEEE1394端口和小型計(jì)算機(jī)系統(tǒng)接口(SCSI)端口是連接端口 923的例子。另外,RS-232C端口、光學(xué)音頻終端或高清晰多媒體接口(HDMI)端口可作為連接端口 923的其他例子。通過將外部連接裝置929連接到連接端口 923,信息處理裝置10直接從外部連接裝置929獲取各種數(shù)據(jù),或者將各種數(shù)據(jù)提供至外部連接裝置929。通信設(shè)備925是使用用于與通信網(wǎng)絡(luò)931連接的通信設(shè)備配置的通信接口。通信設(shè)備925是用于有線或無線局域網(wǎng)(LAN),藍(lán)牙(注冊商標(biāo))或者無線USB (WUSB)的通信卡。通信設(shè)備925可以是光通信的路由器,異步數(shù)字用戶專線(ADSL)的路由器,或者各種通信的調(diào)制解調(diào)器。通信設(shè)備925可通過因特網(wǎng),基于如TCP/IP的預(yù)定協(xié)議來與其它通信設(shè)備交換信號。連接到通信設(shè)備925的通信網(wǎng)絡(luò)931使用有線或無線連接的網(wǎng)絡(luò)配置,且可以是例如因特網(wǎng),家庭LAN,紅外通信,無線電波通信或衛(wèi)星通信。已對可實(shí)現(xiàn)本公開的實(shí)施例的信息處理裝置10功能的硬件配置的例子進(jìn)行了描述??衫酶鞣N構(gòu)件或?qū)S糜诮Y(jié)構(gòu)元件的功能的硬件來配置結(jié)構(gòu)元件。因此,可根據(jù)實(shí)施該實(shí)施例時的技術(shù)水平適當(dāng)?shù)馗淖兪褂玫挠布渲谩?結(jié)論)如上所述,根據(jù)本公開的實(shí)施例的信息處理裝置和信息處理方法,通過輸入自然語句,可通過自然接口實(shí)現(xiàn)高準(zhǔn)確度的文本數(shù)據(jù)搜索,并從自然語句中自動提取搜索邏輯表達(dá)式。當(dāng)搜索與病歷相似的數(shù)據(jù)或者醫(yī)療處理數(shù)據(jù)時,實(shí)施考慮時序的搜索,且作為可靠數(shù)據(jù)可搜索上下文相似的數(shù)據(jù)。可使用上述技術(shù)確定時序,從而關(guān)于時序流程從大量相似數(shù)據(jù)執(zhí)行統(tǒng)計(jì)處理。此夕卜,通過檢測事件的遷移的轉(zhuǎn)折點(diǎn),可執(zhí)行通過統(tǒng)計(jì)信息進(jìn)行的未來預(yù)測展示。已參考附圖對本公開的優(yōu)選實(shí)施例進(jìn)行了詳細(xì)描述。然而,本公開不限于以上例子。對于本領(lǐng)域技術(shù)人員而言,顯然在不脫離權(quán)利要求所限定的本公開的范圍和精神的情況下可對其作出各種修改和改變。因此,可以理解,各種修改和改變均包括在本公開的技術(shù)范圍之內(nèi)。本公開可采取如下配置( I) 一種信息處理裝置,包括
搜索條件信息獲取單元,用于獲取搜索條件信息,該搜索條件信息為指示用于搜索根據(jù)格結(jié)構(gòu)被結(jié)構(gòu)化的搜索對象文本的搜索條件的文本信息;語言處理單元,用于針對所述搜索條件信息執(zhí)行語言分析處理;結(jié)構(gòu)提取單元,用于使用所述搜索條件信息的語言分析結(jié)果來提取所述搜索條件信息的語句結(jié)構(gòu);搜索表達(dá)式生成單元,用于根據(jù)所述搜索條件信息的所述語句結(jié)構(gòu)生成搜索表達(dá)式,所述搜索表達(dá)式反映用于對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu);以及搜索單元,用于利用生成的搜索表達(dá)式,根據(jù)所述搜索條件信息的語句結(jié)構(gòu)來從所述搜索對象文本搜索與所述搜索條件相匹配的文本。(2)根據(jù)(I)所述的信息處理裝置,其中,當(dāng)所述搜索條件信息中包括多個語句時, 所述搜索單元基于所述搜索條件信息中包括的語句的謂語結(jié)構(gòu)的遷移,來從所述搜索對象文本搜索與謂語結(jié)構(gòu)的遷移匹配的文本。(3)根據(jù)(I)或(2)所述的信息處理裝置,其中,基于其中詞或詞組與作為賦予所述詞或詞組的唯一標(biāo)識信息的語言代碼相關(guān)聯(lián)的語言代碼信息,包括在所述搜索對象文本中的語言代碼信息中的詞或詞組由對應(yīng)的語言代碼來代替,所述搜索對象文本中由所述語言代碼代替的詞或詞組的格與所述語言代碼相關(guān)聯(lián),且所述搜索對象文本的謂語結(jié)構(gòu)被標(biāo)記出來,所述信息處理裝置進(jìn)一步包括搜索對象數(shù)據(jù)生成單元,搜索對象數(shù)據(jù)生成單元利用所述語言代碼信息生成用于所述搜索對象文本的搜索處理的搜索對象數(shù)據(jù),以及所述搜索對象數(shù)據(jù)生成單元生成時序事實(shí)數(shù)據(jù),并利用作為賦予所述搜索對象文本的唯一識別信息的文本識別信息和作為賦予形成搜索對象文本的語句的唯一識別信息的語句識別信息來生成搜索索引,在所述時序事實(shí)數(shù)據(jù)中,按照形成搜索對象文本的語句中包括有語言代碼的語句的出現(xiàn)順序來累積與所述語句相對應(yīng)的謂語結(jié)構(gòu),在所述搜索索引中,用于指定包括所述語言代碼的語句的語句識別信息和文本識別信息與所述語言代碼相關(guān)聯(lián)。(4)根據(jù)(3)所述的信息處理裝置,其中所述搜索表達(dá)式生成單元利用所述語言代碼信息,以所述語言代碼代替所述搜索條件信息中包括的文本中、包括在語言代碼信息中的詞或詞組,并生成所述搜索表達(dá)式,以及所述搜索單元利用所述搜索表達(dá)式中包括的所述語言代碼搜索所述搜索索引,并提取包括有所述搜索表達(dá)式中所包括的所述語言代碼的語句作為候選數(shù)據(jù)。(5)根據(jù)(I)- (4)中的任一項(xiàng)所述的信息處理裝置,進(jìn)一步包括選擇單元,用于從所述搜索單元提取的所述候選數(shù)據(jù)中選擇作為搜索結(jié)果輸出的文本,其中,所述選擇單元根據(jù)包括在所述搜索條件信息中的文本的語句結(jié)構(gòu)與所述候選數(shù)據(jù)的語句結(jié)構(gòu)的相似度來選擇作為搜索結(jié)果輸出的文本。(6)根據(jù)(5)所述的信息處理裝置,其中,所述選擇單元作為搜索結(jié)果輸出作為檢測結(jié)果選擇的文本中出現(xiàn)在與所述搜索表達(dá)式相似的語句之前或之后的語句。(7)根據(jù)(5)所述的信息處理裝置,其中所述選擇單元針對作為搜索結(jié)果輸出的文本或搜索條件信息中、出現(xiàn)在由用戶指定的語句之前或之后的語句,或者與形成所述搜索條件信息的每個語句中的語言代碼相對應(yīng)的主題,來執(zhí)行統(tǒng)計(jì)分析,并輸出獲得的統(tǒng)計(jì)分析結(jié)果。(8)根據(jù)(7)所述的信息處理裝置,其中,所述選擇單元對出現(xiàn)在用戶指定的語句之前或之后的語句或者形成搜索條件信息的語句中、其中語言代碼被包括在賓格或謂語中的語句執(zhí)行統(tǒng)計(jì)分析。(9)根據(jù)(3)所述的信息處理裝置,其中,當(dāng)所述信息處理裝置獲取未根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化的非結(jié)構(gòu)化文本時,所述信息處理裝置基于語言處理單元的語言處理結(jié)果和結(jié)構(gòu)提取單元提取的語句結(jié)構(gòu),來對非結(jié)構(gòu)化文本進(jìn)行結(jié)構(gòu)化,并生成搜索對象文本。(10)根據(jù)(I)- (9)中的任一項(xiàng)所述的信息處理裝置,進(jìn)一步包括顯示控制單元,用于對從搜索對象文本檢測的檢測結(jié)果進(jìn)行顯示控制,
其中,所述顯示控制單元對檢測結(jié)果中具有與搜索條件信息的語句結(jié)構(gòu)類似的語句結(jié)構(gòu)的位置進(jìn)行強(qiáng)調(diào)顯示。(11) 一種信息處理方法,包括獲取搜索條件信息,所述搜索條件信息是指示用于搜索根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化后的搜索對象文本的搜索條件的文本信息;針對搜索條件信息執(zhí)行語言分析處理;利用所述搜索條件信息的語言分析結(jié)果來提取所述搜索條件信息的語句結(jié)構(gòu);根據(jù)所述搜索條件信息的所述語句結(jié)構(gòu)生成反映用于對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu)的搜索表達(dá)式;以及利用所述生成的搜索表達(dá)式,根據(jù)所述搜索條件信息的語句結(jié)構(gòu)來從搜索對象文本搜索與所述搜索條件相匹配的文本。(12) 一種程序,使計(jì)算機(jī)實(shí)現(xiàn)搜索條件信息獲取功能,用于獲取搜索條件信息,所述搜索條件信息是指示用于搜索根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化后的搜索對象文本的搜索條件的文本信息;語言處理功能,用于針對所述搜索條件信息執(zhí)行語言分析處理;結(jié)構(gòu)提取功能,用于利用搜索條件信息的語言分析結(jié)果來提取搜索條件信息的語句結(jié)構(gòu);搜索表達(dá)式生成功能,用于根據(jù)所述搜索條件信息的所述語句結(jié)構(gòu)生成反映用于對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu)的搜索表達(dá)式;以及搜索功能,用于利用所述生成的搜索表達(dá)式,根據(jù)搜索條件信息的語句結(jié)構(gòu)來從搜索對象文本搜索與所述搜索條件相匹配的文本。(13) 一種信息處理系統(tǒng),包括信息搜索服務(wù)器,包括用于獲取搜索條件信息的搜索條件信息獲取單元,該搜索條件信息為指示用于搜索根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化后的搜索對象文本的搜索條件的文本信息;用于針對搜索條件信息執(zhí)行語言分析處理的語言處理單元;用于利用搜索條件信息的語言分析結(jié)果來提取搜索條件信息的語句結(jié)構(gòu)的結(jié)構(gòu)提取單元;用于根據(jù)所述搜索條件信息的所述語句結(jié)構(gòu)生成反映用于對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu)的搜索表達(dá)式的搜索表達(dá)式生成單元;以及用于利用所述生成的搜索表達(dá)式,根據(jù)搜索條件信息的語句結(jié)構(gòu)來從搜索對象文本搜索與所述搜索條件相匹配的文本的搜索單元;以及
生成所述搜索條件信息并將生成的所述搜索條件信息輸出到信息搜索服務(wù)器的用戶操作終端,其中,所述信息搜索服務(wù)器將關(guān)于從用戶操作終端輸出的搜索條件信息的搜索結(jié)果輸出至用戶操作終端。 本公開包括與公開在2011年5月10日提交至日本專利局的日本優(yōu)先權(quán)專利申請JP2011-105034中的內(nèi)容相關(guān)的主題,該專利申請的全部內(nèi)容通過引用結(jié)合于此。
權(quán)利要求
1.一種信息處理裝置,包括 搜索條件信息獲取單元,用于獲取搜索條件信息,該搜索條件信息為指示用于搜索根據(jù)格結(jié)構(gòu)被結(jié)構(gòu)化的搜索對象文本的搜索條件的文本信息; 語言處理單元,用于針對所述搜索條件信息執(zhí)行語言分析處理; 結(jié)構(gòu)提取單元,用于使用所述搜索條件信息的語言分析結(jié)果來提取所述搜索條件信息的語句結(jié)構(gòu); 搜索表達(dá)式生成單元,用于根據(jù)所述搜索條件信息的所述語句結(jié)構(gòu)生成搜索表達(dá)式,所述搜索表達(dá)式反映用于對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu);以及 搜索單元,用于利用生成的搜索表達(dá)式,根據(jù)所述搜索條件信息的語句結(jié)構(gòu)來從所述搜索對象文本搜索與所述搜索條件相匹配的文本。
2.根據(jù)權(quán)利要求I所述的信息處理裝置,其中,當(dāng)所述搜索條件信息中包括多個語句時,所述搜索單元基于所述搜索條件信息中包括的語句的謂語結(jié)構(gòu)的遷移,來從所述搜索對象文本搜索與謂語結(jié)構(gòu)的遷移匹配的文本。
3.根據(jù)權(quán)利要求2所述的信息處理裝置, 其中,基于其中詞或詞組與作為賦予所述詞或詞組的唯一標(biāo)識信息的語言代碼相關(guān)聯(lián)的語言代碼信息,包括在所述搜索對象文本中的語言代碼信息中的詞或詞組由對應(yīng)的語言代碼來代替,所述搜索對象文本中由所述語言代碼代替的詞或詞組的格與所述語言代碼相關(guān)聯(lián),且所述搜索對象文本的謂語結(jié)構(gòu)被標(biāo)記出來, 所述信息處理裝置進(jìn)一步包括搜索對象數(shù)據(jù)生成單元,搜索對象數(shù)據(jù)生成單元利用所述語言代碼信息生成用于所述搜索對象文本的搜索處理的搜索對象數(shù)據(jù),以及 所述搜索對象數(shù)據(jù)生成單元生成時序事實(shí)數(shù)據(jù),并利用作為賦予所述搜索對象文本的唯一識別信息的文本識別信息和作為賦予形成搜索對象文本的語句的唯一識別信息的語句識別信息來生成搜索索引,在所述時序事實(shí)數(shù)據(jù)中,按照形成搜索對象文本的語句中包括有語言代碼的語句的出現(xiàn)順序來累積與所述語句相對應(yīng)的謂語結(jié)構(gòu),在所述搜索索引中,用于指定包括所述語言代碼的語句的語句識別信息和文本識別信息與所述語言代碼相關(guān)聯(lián)。
4.根據(jù)權(quán)利要求3所述的信息處理裝置, 其中所述搜索表達(dá)式生成單元利用所述語言代碼信息,以所述語言代碼代替所述搜索條件信息中包括的文本中、包括在語言代碼信息中的詞或詞組,并生成所述搜索表達(dá)式,以及 所述搜索單元利用所述搜索表達(dá)式中包括的所述語言代碼搜索所述搜索索引,并提取包括有所述搜索表達(dá)式中所包括的所述語言代碼的語句作為候選數(shù)據(jù)。
5.根據(jù)權(quán)利要求4所述的信息處理裝置,進(jìn)一步包括 選擇單元,用于從所述搜索單元提取的所述候選數(shù)據(jù)中選擇作為搜索結(jié)果輸出的文本, 其中,所述選擇單元根據(jù)包括在所述搜索條件信息中的文本的語句結(jié)構(gòu)與所述候選數(shù)據(jù)的語句結(jié)構(gòu)的相似度來選擇作為搜索結(jié)果輸出的文本。
6.根據(jù)權(quán)利要求5所述的信息處理裝置,其中,所述選擇單元作為搜索結(jié)果輸出作為檢測結(jié)果選擇的文本中出現(xiàn)在與所述搜索表達(dá)式相似的語句之前或之后的語句。
7.根據(jù)權(quán)利要求5所述的信息處理裝置,其中所述選擇單元針對作為搜索結(jié)果輸出的文本或搜索條件信息中、出現(xiàn)在由用戶指定的語句之前或之后的語句,或者與形成所述搜索條件信息的每個語句中的語言代碼相對應(yīng)的主題,來執(zhí)行統(tǒng)計(jì)分析,并輸出獲得的統(tǒng)計(jì)分析結(jié)果。
8.根據(jù)權(quán)利要求7所述的信息處理裝置,其中,所述選擇單元對出現(xiàn)在用戶指定的語句之前或之后的語句或者形成搜索條件信息的語句中、其中語言代碼被包括在賓格或謂語中的語句執(zhí)行統(tǒng)計(jì)分析。
9.根據(jù)權(quán)利要求3所述的信息處理裝置,其中,當(dāng)所述信息處理裝置獲取未根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化的非結(jié)構(gòu)化文本時,所述信息處理裝置基于語言處理單元的語言處理結(jié)果和結(jié)構(gòu)提取單元提取的語句結(jié)構(gòu),來對非結(jié)構(gòu)化文本進(jìn)行結(jié)構(gòu)化,并生成搜索對象文本。
10.根據(jù)權(quán)利要求I所述的信息處理裝置,進(jìn)一步包括 顯示控制單元,用于對從搜索對象文本檢測的檢測結(jié)果進(jìn)行顯示控制, 其中,所述顯示控制單元對檢測結(jié)果中具有與搜索條件信息的語句結(jié)構(gòu)類似的語句結(jié)構(gòu)的位置進(jìn)行強(qiáng)調(diào)顯示。
11.一種信息處理方法,包括 獲取搜索條件信息,所述搜索條件信息是指示用于搜索根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化后的搜索對象文本的搜索條件的文本信息; 針對搜索條件信息執(zhí)行語言分析處理; 利用所述搜索條件信息的語言分析結(jié)果來提取所述搜索條件信息的語句結(jié)構(gòu); 根據(jù)所述搜索條件信息的所述語句結(jié)構(gòu)生成反映用于對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu)的搜索表達(dá)式;以及 利用所述生成的搜索表達(dá)式,根據(jù)所述搜索條件信息的語句結(jié)構(gòu)來從搜索對象文本搜索與所述搜索條件相匹配的文本。
12.—種程序,使計(jì)算機(jī)實(shí)現(xiàn) 搜索條件信息獲取功能,用于獲取搜索條件信息,所述搜索條件信息是指示用于搜索根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化后的搜索對象文本的搜索條件的文本信息; 語言處理功能,用于針對所述搜索條件信息執(zhí)行語言分析處理; 結(jié)構(gòu)提取功能,用于利用搜索條件信息的語言分析結(jié)果來提取搜索條件信息的語句結(jié)構(gòu); 搜索表達(dá)式生成功能,用于根據(jù)所述搜索條件信息的所述語句結(jié)構(gòu)生成反映用于對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu)的搜索表達(dá)式;以及 搜索功能,用于利用所述生成的搜索表達(dá)式,根據(jù)搜索條件信息的語句結(jié)構(gòu)來從搜索對象文本搜索與所述搜索條件相匹配的文本。
13.—種信息處理系統(tǒng),包括 信息搜索服務(wù)器,包括用于獲取搜索條件信息的搜索條件信息獲取單元,該搜索條件信息為指示用于搜索根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化后的搜索對象文本的搜索條件的文本信息;用于針對搜索條件信息執(zhí)行語言分析處理的語言處理單元;用于利用搜索條件信息的語言分析結(jié)果來提取搜索條件信息的語句結(jié)構(gòu)的結(jié)構(gòu)提取單元;用于根據(jù)所述搜索條件信息的所述語句結(jié)構(gòu)生成反映用于對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu)的搜索表達(dá)式的搜索表達(dá)式生成單元;以及用于利用所述生成的搜索表達(dá)式,根據(jù)搜索條件信息的語句結(jié)構(gòu)來從搜索對象文本搜索與所述搜索條件相匹配的文本的搜索單元;以及 生成所述搜索條件信息并將生成的所述搜索條件信息輸出到信息搜索服務(wù)器的用戶操作終端, 其中,所述信息搜索服務(wù)器將關(guān)于從用戶操作終端輸出的搜索條 件信息的搜索結(jié)果輸出至用戶操作終端。
全文摘要
提供了一種信息處理裝置,包括用于獲取搜索條件信息的搜索條件信息獲取單元,該搜索條件信息為指示用于搜索根據(jù)格結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化的搜索對象文本的搜索條件的文本信息;用于針對搜索條件信息執(zhí)行語言分析處理的語言處理單元;用于利用搜索條件信息的語言分析結(jié)果來提取搜索條件信息的語句結(jié)構(gòu)的結(jié)構(gòu)提取單元;用于生成反映根據(jù)搜索條件信息的語句結(jié)構(gòu)對搜索對象文本進(jìn)行搜索的搜索條件信息的語句結(jié)構(gòu)的搜索表達(dá)式的搜索表達(dá)式生成單元;以及用于利用生成的搜索表達(dá)式,根據(jù)搜索條件信息的語句結(jié)構(gòu)來從搜索對象文本搜索與搜索條件相匹配的文本的搜索單元。
文檔編號G06F17/30GK102779149SQ20121013587
公開日2012年11月14日 申請日期2012年5月3日 優(yōu)先權(quán)日2011年5月10日
發(fā)明者小林賢一郎, 星野政明 申請人:索尼公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1