從電子文檔中的表格結(jié)構(gòu)提取語義關(guān)系的制作方法
【專利摘要】提供在數(shù)據(jù)處理系統(tǒng)中用于提取在與電子文檔關(guān)聯(lián)的表格數(shù)據(jù)結(jié)構(gòu)中的表格內(nèi)容之間的語義關(guān)系的機制。這些機制確定表格數(shù)據(jù)結(jié)構(gòu)內(nèi)的單元配置。該機制基于確定的單元配置標(biāo)識表格數(shù)據(jù)結(jié)構(gòu)內(nèi)的一個或者多個超單元。該機制也對于一個或者多個超單元中的每個超單元將與超單元對應(yīng)的表格數(shù)據(jù)轉(zhuǎn)換成用于超單元的語義關(guān)系語句,其中語義關(guān)系語句標(biāo)識在與超單元對應(yīng)的表格數(shù)據(jù)的部分之間的一個或者多個關(guān)系。機制還與表格數(shù)據(jù)結(jié)構(gòu)關(guān)聯(lián)地存儲用于超單元中的每個超單元的語義關(guān)系語句。
【專利說明】從電子文檔中的表格結(jié)構(gòu)提取語義關(guān)系
【技術(shù)領(lǐng)域】
[0001]本申請主要地涉及一種改進(jìn)的數(shù)據(jù)處理裝置和方法,并且更具體地涉及用于從電子文檔中的表格結(jié)構(gòu)提取語義關(guān)系的機制。
【背景技術(shù)】
[0002]自然語言處理(NLP)系統(tǒng)、問答創(chuàng)建(Q&A)系統(tǒng)等利用電子文檔的文本內(nèi)容分析以執(zhí)行它們的各種活動。例如可從紐約阿芒克的國際商業(yè)機器(MB)公司獲得的稱為Watson?的Q&A系統(tǒng)分析電子文檔的無結(jié)構(gòu)文本內(nèi)容,以回答問題并且從文本內(nèi)容推導(dǎo)結(jié)論。
[0003]盡管這些系統(tǒng)對文本內(nèi)容行之有效,但是許多時候在電子文檔中的表格結(jié)構(gòu)中呈現(xiàn)或者捕獲知識和信息。這樣的NLP和Q&A系統(tǒng)不能充分地處理這樣的表格結(jié)構(gòu)以收集在這些表格結(jié)構(gòu)中呈現(xiàn)的信息和知識。
【發(fā)明內(nèi)容】
[0004]在一個說明性實施例中,提供一種在數(shù)據(jù)處理系統(tǒng)中用于提取在與電子文檔關(guān)聯(lián)的表格數(shù)據(jù)結(jié)構(gòu)中的表格內(nèi)容之間的語義關(guān)系的方法。該方法包括確定表格數(shù)據(jù)結(jié)構(gòu)內(nèi)的單元配置。該方法還包括基于確定的單元配置來標(biāo)識表格數(shù)據(jù)結(jié)構(gòu)內(nèi)的一個或者多個超單元。另外,該方法包括對于一個或者多個超單元中的每個超單元將與超單元對應(yīng)的表格數(shù)據(jù)轉(zhuǎn)換成用于超單元的語義關(guān)系語句,其中語義關(guān)系語句標(biāo)識在與超單元對應(yīng)的表格數(shù)據(jù)的部分之間的一個或者多個關(guān)系。該方法還包括與表格數(shù)據(jù)結(jié)構(gòu)關(guān)聯(lián)地存儲用于超單元中的每個超單元的語義關(guān)系語句。
[0005]在其它說明性實施例中,提供一種包括具有計算機可讀程序的計算機可用或者可讀介質(zhì)的計算機程序產(chǎn)品。計算機可讀程序在計算設(shè)備上執(zhí)行時使計算設(shè)備執(zhí)行以上關(guān)于方法說明性實施例概括的操作中的各種操作和組合。
[0006]在又一說明性實施例中,提供一種系統(tǒng)/裝置。該系統(tǒng)/裝置可以包括一個或者多個處理器和耦合到該一個或者多個處理器的存儲器。存儲器可以包括指令,這些指令在由該一個或者多個處理器執(zhí)行時使該一個或者多個處理器執(zhí)行以上關(guān)于方法說明性實施例概括的操作中的各種操作和組合。
[0007]本發(fā)明的這些和其它特征及優(yōu)點將在本發(fā)明的說明性實施例的以下具體描述中被描述或者將鑒于該具體描述而變得為本領(lǐng)域普通技術(shù)人員所清楚。
【專利附圖】
【附圖說明】
[0008]將通過參照在結(jié)合附圖閱讀時對說明性實施例的以下具體描述來最好地理解本發(fā)明及其優(yōu)選實施方式和更多目的及優(yōu)點,在附圖中:
[0009]圖1是其中可以實施說明性實施例的方面的分布式數(shù)據(jù)處理系統(tǒng)的示例圖;
[0010]圖2是其中可以實施說明性實施例的方面的計算設(shè)備的示例框圖;[0011]圖3是示出根據(jù)一個說明性實施例的表格結(jié)構(gòu)的示例圖,該示例圖示出表格結(jié)構(gòu)的要素,這些要素用于確定表格結(jié)構(gòu)的語義;
[0012]圖4是圖示根據(jù)一個說明性實施例的元組的示例組織的示例圖;
[0013]圖5A-圖圖示可以用來實施說明性實施例的其它示例表格結(jié)構(gòu);
[0014]圖6是根據(jù)一個說明性實施例的表格結(jié)構(gòu)語義提取引擎的示例框圖;以及
[0015]圖7是概括根據(jù)一個說明性實施例的示例操作的流程圖,該示例操作用于提取表格結(jié)構(gòu)語義信息并且制定表格結(jié)構(gòu)的語義表示。
【具體實施方式】
[0016]說明性實施例提供用于從在電子文檔中嵌入的或者與電子文檔關(guān)聯(lián)的表格結(jié)構(gòu)提取語義關(guān)系的機制。如以上所言,自然語言處理(NLP)、問答創(chuàng)建(Q&A)系統(tǒng)等不能恰當(dāng)處理這樣的表格結(jié)構(gòu),因為它們未被配置用于理解這樣的表格結(jié)構(gòu)的結(jié)構(gòu),或者以有含義的方式識別在這樣的表格中包含的信息之間的關(guān)系。這是因為這樣的NLP和Q&A系統(tǒng)、比如IBM公司的Watson? Q&A系統(tǒng)對在句子結(jié)構(gòu)中呈現(xiàn)的信息進(jìn)行操作,并且分析恰當(dāng)形成的句子的語法以收集關(guān)于電子文檔的內(nèi)容的信息。
[0017]說明性實施例提供用于將表格結(jié)構(gòu)映射到代表那些表格結(jié)構(gòu)中的信息的文本語句或者分析引擎可以被配置用于利用的其它形式的結(jié)構(gòu)化信息的機制。說明性實施例提供一種對在電子文檔中的表格結(jié)構(gòu)給定時如何可以提取表格結(jié)構(gòu)的含義或者語義、從而可以編程地處理這些語義的解決方案。
[0018]也就是說,許多表格結(jié)構(gòu)具有在表格結(jié)構(gòu)中的單元之間的關(guān)系的豐富集合。這些關(guān)系可以包括與相同行中的頭標(biāo)和腳注單元的水平關(guān)系、與相同列中的頭標(biāo)和腳注單元的豎直關(guān)系、與表格結(jié)構(gòu)的“拐角”單元和與表格結(jié)構(gòu)的標(biāo)題的列表/上下文關(guān)系、在鄰近單元之間的鄰居關(guān)系等。說明性實施例提供用于從表格結(jié)構(gòu)提取這樣的語義關(guān)系、并且將它們制定成分析引擎可使用的結(jié)構(gòu)的機制。這一制定可以例如包括生成代表在表格結(jié)構(gòu)中的信息之間的語義關(guān)系的句子結(jié)構(gòu)、具有代表這些語義關(guān)系的內(nèi)容的結(jié)構(gòu)化查詢語言(SQL)語句、語義三元組如資源描述框架(RDF)或者N3等。為了易于說明而將使用2維表格結(jié)構(gòu)來描述說明性實施例,但是本領(lǐng)域普通技術(shù)人員將理解可以用如可以在計算機模型、數(shù)據(jù)倉庫等中提供的具有多于2個維度的表格結(jié)構(gòu)實施說明性實施例的機制。
[0019]根據(jù)一個說明性實施例從表格結(jié)構(gòu)提取含義(或者語義)包括以下三個操作:結(jié)構(gòu)標(biāo)識、元組生成和構(gòu)造語義表示。關(guān)于結(jié)構(gòu)標(biāo)識,確定行頭標(biāo)(row header)、行腳注(rowfooter)、列頭標(biāo)和列腳注的大小以及表格結(jié)構(gòu)中的超單元(super cell)的大小。這提供用來解析表格結(jié)構(gòu)以基于表格的結(jié)構(gòu)提取表格結(jié)構(gòu)的內(nèi)容和關(guān)系的結(jié)構(gòu)信息。
[0020]元組生成涉及到為每個超單元構(gòu)造元組。元組包含超單元的內(nèi)容(鄰居有關(guān)單元)以及所有超單元的水平、垂直和圖形相關(guān)(tabularly-related)單元的內(nèi)容。構(gòu)造語義表示涉及到使用表格結(jié)構(gòu)的模板以將每個元組獨立轉(zhuǎn)換成目標(biāo)語義表示。可以將所得的語義表示插入到電子文檔中的表格結(jié)構(gòu)中,或者與該電子文檔中的表格結(jié)構(gòu)關(guān)聯(lián)或者一般向電子文檔關(guān)聯(lián)。作為結(jié)果,語義表示可以由NLP、Q&A和利用語義表示的其它分析系統(tǒng)來處理。
[0021]所屬【技術(shù)領(lǐng)域】的技術(shù)人員知道,本發(fā)明的各個方面可以實現(xiàn)為系統(tǒng)、方法或計算機程序產(chǎn)品。因此,本發(fā)明的各個方面可以具體實現(xiàn)為以下形式,即:完全的硬件實施方式、完全的軟件實施方式(包括固件、駐留軟件、微代碼等),或硬件和軟件方面結(jié)合的實施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。此外,在一些實施例中,本發(fā)明的各個方面還可以實現(xiàn)為在一個或多個計算機可讀介質(zhì)中的計算機程序產(chǎn)品的形式,該計算機可讀介質(zhì)中包含計算機可讀的程序代碼。
[0022]可以采用一個或多個計算機可讀介質(zhì)的任意組合。計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)例如可以是一但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式計算機盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPR0M或閃存)、光纖、便攜式緊湊盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
[0023]計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
[0024]計算機可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括一但不限于一無線、有線、光纜、RF等等,或者上述的任意合適的組合。
[0025]可以以一種或多種程序設(shè)計語言的任意組合來編寫用于執(zhí)行本發(fā)明操作的計算機程序代碼,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言一諸如Java、Smalltalk、C++等,還包括常規(guī)的過程式程序設(shè)計語言一諸如“C”語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶計算機上執(zhí)行、部分地在用戶計算機上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算機上部分在遠(yuǎn)程計算機上執(zhí)行、或者完全在遠(yuǎn)程計算機或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計算機的情形中,遠(yuǎn)程計算機可以通過任意種類的網(wǎng)絡(luò)一包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
[0026]下面將參照根據(jù)本發(fā)明實施例的方法、裝置(系統(tǒng))和計算機程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明。應(yīng)當(dāng)理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由計算機程序指令實現(xiàn)。這些計算機程序指令可以提供給通用計算機、專用計算機或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機器,使得這些計算機程序指令在通過計算機或其它可編程數(shù)據(jù)處理裝置的處理器執(zhí)行時,產(chǎn)生了實現(xiàn)流程圖和/或框圖中的一個或多個方框中指定的功能/動作的裝置。
[0027]也可以把這些計算機程序指令存儲在計算機可讀介質(zhì)中,這些指令使得計算機、其它可編程數(shù)據(jù)處理裝置、或其他設(shè)備以特定方式工作,從而,存儲在計算機可讀介質(zhì)中的指令就產(chǎn)生出包括實現(xiàn)流程圖和/或框圖中的一個或多個方框中指定的功能/動作的指令的制造品(article of manufacture)0
[0028]也可以把計算機程序指令加載到計算機、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備上,使得在計算機、其它可編程數(shù)據(jù)處理裝置或其它設(shè)備上執(zhí)行一系列操作步驟,以產(chǎn)生計算機實現(xiàn)的過程,從而使得在計算機或其它可編程裝置上執(zhí)行的指令能夠提供實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。
[0029]附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用于實現(xiàn)指定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行指定的功能或動作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
[0030]因此,可以在許多不同類型的數(shù)據(jù)處理環(huán)境中利用說明性實施例。為了提供用于描述說明性實施例的具體單元和功能的上下文,下文提供圖1和圖2作為其中可以實施說明性實施例的方面的示例環(huán)境。應(yīng)當(dāng)理解圖1和圖2僅為示例而未旨在于關(guān)于其中可以實施本發(fā)明的方面或者示例的環(huán)境確立或者暗示任何限制??梢宰鞒鰧λ枥L的環(huán)境的諸多修改而不背離本發(fā)明的精神和范圍。
[0031]圖1描繪其中可以實施說明性實施例的方面的示例分布式數(shù)據(jù)處理系統(tǒng)的圖解表示。分布式數(shù)據(jù)處理系統(tǒng)100可以包括其中可以實施說明性實施例的方面的計算機網(wǎng)絡(luò)。分布式數(shù)據(jù)處理系統(tǒng)100包含至少一個網(wǎng)絡(luò)102,該至少一個網(wǎng)絡(luò)是用來在分布式數(shù)據(jù)處理系統(tǒng)100內(nèi)連接在一起的各種設(shè)備和計算機之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)102可以包括連接、比如有線、無線通信鏈路或者光纖線纜。
[0032]在描繪的示例中,服務(wù)器104和服務(wù)器106與存儲單元108 —起連接到網(wǎng)絡(luò)102。此外,客戶端110、112和114也連接到網(wǎng)絡(luò)102。這些客戶端110、112和114可以例如是個人計算機、網(wǎng)絡(luò)計算機等。在描繪的示例中,服務(wù)器104向客戶端110、112和114提供數(shù)據(jù)、比如引導(dǎo)文件、操作系統(tǒng)映像和應(yīng)用。客戶端110、112和114在描繪的示例中是服務(wù)器104的客戶端。分布式數(shù)據(jù)處理系統(tǒng)100可以包括未示出的附加服務(wù)器、客戶端和其它設(shè)備。
[0033]在描繪的示例中,分布式數(shù)據(jù)處理系統(tǒng)100是網(wǎng)絡(luò)因特網(wǎng)102,該網(wǎng)絡(luò)因特網(wǎng)代表使用傳輸控制協(xié)議/網(wǎng)際協(xié)議(TCP/IP)協(xié)議套件相互通信的網(wǎng)絡(luò)和網(wǎng)關(guān)的全世界匯集。在因特網(wǎng)的核心是在包括傳送數(shù)據(jù)和消息的數(shù)以千計的商業(yè)、政府、教育和其它計算機系統(tǒng)的主要節(jié)點或者主機計算機之間的高速數(shù)據(jù)通信鏈路的中樞。當(dāng)然,也可以實施分布式數(shù)據(jù)處理系統(tǒng)100以包括許多不同類型的網(wǎng)絡(luò)、如例如內(nèi)聯(lián)網(wǎng)、局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)等。如上文所言,圖1旨在于作為示例、并非作為對于本發(fā)明的不同實施例的架構(gòu)限制,因此圖1中所示特定單元不應(yīng)視為關(guān)于其中可以實施本發(fā)明的說明性實施例的環(huán)境進(jìn)行限制。
[0034]圖2是其中可以實施說明性實施例的方面的示例數(shù)據(jù)處理系統(tǒng)的框圖。數(shù)據(jù)處理系統(tǒng)200是實施用于本發(fā)明的說明性實施例的過程的計算機可用代碼或者指令可以位于其中的計算機的示例、比如圖1中的客戶端110。
[0035]在描繪的示例中,數(shù)據(jù)處理系統(tǒng)200運用集線器架構(gòu),該集線器架構(gòu)包括北橋和存儲器控制器集線器(NB/MCH) 202以及南橋和輸入/輸出(I/O)控制器集線器(SB/ICH)204。處理單元206、主存儲器208和圖形處理器210連接到NB/MCH202。圖形處理器210可以通過加速圖形端口(AGP)連接到NB/MCH202。
[0036]在描繪的示例中,局域網(wǎng)(LAN)適配器212連接到SB/ICH204。音頻適配器216、鍵盤和鼠標(biāo)適配器220、調(diào)制解調(diào)器222、只讀存儲器(ROM) 224、硬盤驅(qū)動(HDD) 226、⑶-ROM驅(qū)動230、通用串行總線(USB)端口和其它通信端口 232以及PCI/PCIe設(shè)備234通過總線238和總線240連接到SB/ICH204。PCI/PCIe設(shè)備可以例如包括以太網(wǎng)適配器、附加卡和用于筆記本計算機的PC卡。PCI使用卡總線控制器而PCIe未使用。R0M224可以例如是閃存基本輸入/輸出系統(tǒng)(BIOS)。
[0037]HDD226 和 CD/R0M 驅(qū)動 230 通過總線 240 連接到 SB/ICH204。HDD226 和 CD-ROM 驅(qū)動230可以例如使用集成驅(qū)動電子裝置(IDE)或者串行高級技術(shù)附著(SATA)接口。超I/O(SIO)設(shè)備236可以連接到SB/ICH204。
[0038]操作系統(tǒng)在處理單元206上運行。操作系統(tǒng)協(xié)調(diào)圖2中的數(shù)據(jù)處理系統(tǒng)200內(nèi)的各種部件并且提供對這些部件的控制。作為客戶端,操作系統(tǒng)可以是商用操作系統(tǒng)、比如
Microsoft'* WindowsR 7。面向?qū)ο缶幊滔到y(tǒng)、比如Java?編程系統(tǒng)可以結(jié)合操作系
統(tǒng)運行并且提供從在數(shù)據(jù)處理系統(tǒng)200上執(zhí)行的Java?程序或者應(yīng)用對操作系統(tǒng)的調(diào)用。
[0039]作為服務(wù)器,數(shù)據(jù)處理系統(tǒng)200可以例如是運行高級交互執(zhí)行程序(AlXv)操作
系統(tǒng)或者LINUX?操作系統(tǒng)的IBM? eServer?System p?計算機系統(tǒng)。數(shù)據(jù)處理系統(tǒng)
200可以是包括處理單元206中的多個處理器的對稱多處理器(SMP)系統(tǒng)。備選地,可以運用單處理器系統(tǒng)。
[0040]用于操作系統(tǒng)、面向?qū)ο缶幊滔到y(tǒng)和應(yīng)用或者程序的指令位于存儲設(shè)備、比如HDD226上并且可以被加載到主存儲器208中用于由處理單元206執(zhí)行。處理單元206可以例如使用可以位于存儲器、如例如主存儲器208、R0M224中或者一個或者多個外圍設(shè)備226和230中的計算機可用程序代碼來執(zhí)行用于本發(fā)明的說明性實施例的過程。
[0041]總線系統(tǒng)、比如如圖2中所示總線238或者總線240可以包括一個或者多個總線。當(dāng)然,可以使用任何類型的通信結(jié)構(gòu)或者架構(gòu)來實施總線系統(tǒng),該通信結(jié)構(gòu)或者架構(gòu)提供在附著到該結(jié)構(gòu)或者架構(gòu)的不同部件或者設(shè)備之間的數(shù)據(jù)傳送。通信單元、比如圖2的調(diào)制解調(diào)器222或者網(wǎng)絡(luò)適配器212可以包括用來發(fā)送和接收數(shù)據(jù)的一個或者多個設(shè)備。存儲器可以例如是主存儲器208、R0M224或者比如在圖2中的NB/MCH202中發(fā)現(xiàn)的高速緩存。
[0042]本領(lǐng)域普通技術(shù)人員將理解圖1和圖2中的硬件可以根據(jù)實現(xiàn)而變化。除了圖1和圖2中描繪的硬件之外還可以使用或者取代該硬件使用其它內(nèi)部硬件或者外圍設(shè)備、t匕如閃存、等效非易失性存儲器或者光盤驅(qū)動等。說明性實施例的過程也可以應(yīng)用于除了先前提到的SMP系統(tǒng)之外的多處理器數(shù)據(jù)處理系統(tǒng)而未脫離本發(fā)明的精神實質(zhì)和范圍。
[0043]另外,數(shù)據(jù)處理系統(tǒng)200可以采用包括客戶端計算設(shè)備、服務(wù)器計算設(shè)備、寫字板計算機、膝上型計算機、電話或者其它通信設(shè)備、個人數(shù)字助理(PDA)等的許多不同數(shù)據(jù)處理系統(tǒng)中的任何數(shù)據(jù)處理系統(tǒng)的形式。在一些說明性示例中,數(shù)據(jù)處理系統(tǒng)200可以例如是配置有閃存的便攜計算設(shè)備,該閃存用于提供用于存儲操作系統(tǒng)文件和/或用戶生成的數(shù)據(jù)的非易失性存儲器。實質(zhì)上,數(shù)據(jù)處理系統(tǒng)200可以是任何已知或者以后開發(fā)的數(shù)據(jù)處理系統(tǒng)而無架構(gòu)限制。
[0044]再次參照圖1,可以在包括服務(wù)器104、106和/或客戶端110-114的圖1中所示計算設(shè)備中的任何一個或者多個計算設(shè)備中實施本發(fā)明的說明性實施例。在一些說明性實施例中,結(jié)合用于分析一個或者多個存儲系統(tǒng)/設(shè)備中存儲的電子文檔的分析引擎實施說明性實施例的機制。這一分析引擎可以采用包括自然語言處理(NLP)分析引擎、問答創(chuàng)建(Q&A)系統(tǒng)等的許多不同形式。說明性實施例的機制和說明性實施例與之關(guān)聯(lián)的分析引擎分析的電子文檔可以存儲于說明性實施例的機制和分析引擎在其上執(zhí)行的計算設(shè)備本地、可以遠(yuǎn)程位于與其它計算設(shè)備關(guān)聯(lián)并且經(jīng)由一個或者多個網(wǎng)絡(luò)102可訪問的存儲系統(tǒng)/設(shè)備上、可以包括本地和遠(yuǎn)程維護(hù)的電子文檔并且可以分布于經(jīng)由一個或者多個網(wǎng)絡(luò)102可訪問的多個計算設(shè)備和存儲系統(tǒng)/設(shè)備內(nèi)。在一個說明性實施例中,電子文檔(能夠具有嵌入式表格結(jié)構(gòu)或者與電子文檔關(guān)聯(lián)的表格結(jié)構(gòu))可以是從任何客戶端計算設(shè)備、服務(wù)器、網(wǎng)絡(luò)附著存儲系統(tǒng)等可用的任何電子文檔、網(wǎng)頁或者內(nèi)容匯集。
[0045]為了以下描述,將假設(shè)結(jié)合Q&A分析弓丨擎實施說明性實施例的機制。Q&A分析弓丨擎取得輸入問題、分析它并且向返回指示對輸入問題的最可能答案的結(jié)果。Q&A系統(tǒng)提供用于搜索內(nèi)容源、例如電子文檔的大型集合的自動化機制并且關(guān)于輸入問題分析它們以確定對問題的答案和關(guān)于答案對于回答輸入問題有多么準(zhǔn)確的置信度測量。
[0046]一個這樣的Q&A系統(tǒng)是從紐約阿芒克的國際商業(yè)機器(MB)公司可獲得的Watson?系統(tǒng)。Watson?系統(tǒng)是高級自然語言處理(NLP)、信息取回、知識表示和推理以及機器學(xué)習(xí)技術(shù)應(yīng)用于開放范疇問題回答領(lǐng)域。在用于假設(shè)生成、規(guī)模證據(jù)收集、分析和計分的IBM的De印QA?技術(shù)上構(gòu)建Watson?系統(tǒng)。De印QA?取得輸入問題、分析它、將問題分解成組成部分、基于分解的問題和答案源的主要搜索的結(jié)果生成一個或者多個假設(shè)、基于從證據(jù)源取回證據(jù)執(zhí)行假設(shè)和證據(jù)計分、執(zhí)行最終合并和排行以將對輸入問題的答案與置信度測量一起輸出。
[0047]各種美國專利申請公開文獻(xiàn)描述也可以結(jié)合說明性實施例的機制使用的各種類型的問題和答案系統(tǒng)。
【發(fā)明者】S·N·格拉德, M·G·梅格里安 申請人:國際商業(yè)機器公司