專利名稱::結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源之間的相互的搜索和警告的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及用于以查找源之間的共同性并遞歸地利用這樣的共同性的方式搜索結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源的方法。
背景技術(shù):
:諸如政府機(jī)構(gòu)、公司及其他私有組織的信息用戶,通常管理非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)源。這些源中的某些源可以在內(nèi)部維護(hù),而其它的可以由外部實(shí)體維護(hù)和控制。結(jié)構(gòu)化和非結(jié)構(gòu)化的源常常彼此之間幾乎沒(méi)有協(xié)作、鏈接或自動(dòng)通知。在這些完全不同的類型源之間挖掘數(shù)據(jù)傳統(tǒng)上存在不足。一種方法是索引結(jié)構(gòu)化源,然而,此方法忽略可以基于結(jié)構(gòu)化元數(shù)據(jù)應(yīng)用的邏輯。第二種方法是從非結(jié)構(gòu)化數(shù)據(jù)提取結(jié)構(gòu)化數(shù)據(jù),然而,許多年來(lái)研究了自動(dòng)化提取技術(shù),該技術(shù)產(chǎn)生有質(zhì)量問(wèn)題的結(jié)構(gòu)化數(shù)據(jù)。
發(fā)明內(nèi)容提供了使用初始搜索項(xiàng)并利用搜索引擎來(lái)搜索非結(jié)構(gòu)化數(shù)據(jù)源的方法。收集從搜索引擎接收到的搜索擊中,并從搜索擊中檢索可能的搜索項(xiàng)。從搜索擊中提取實(shí)體,其中實(shí)體與所提取的項(xiàng)相對(duì)應(yīng)。所提取的實(shí)體和項(xiàng)被用來(lái)查詢諸如關(guān)系數(shù)據(jù)庫(kù)中的表的結(jié)構(gòu)化數(shù)據(jù)源。然后,從對(duì)結(jié)構(gòu)化數(shù)據(jù)源執(zhí)行的查詢接收查詢結(jié)果。這些查詢結(jié)果被用來(lái)進(jìn)一步搜索非結(jié)構(gòu)化數(shù)據(jù)源,以再次接收從其中提取項(xiàng)和實(shí)體的搜索擊中。將搜索擊中和所提取的實(shí)體存儲(chǔ)在結(jié)果數(shù)據(jù)存儲(chǔ)中供分析。前面的內(nèi)容是概述,如此,根據(jù)需要,包含簡(jiǎn)述、概括,省略了詳細(xì)內(nèi)容;因此,本領(lǐng)域技術(shù)人員將理解,概述只是說(shuō)明性的,并不以任何方式作出限制。在下面闡述的非限制性詳細(xì)描述中,只由權(quán)利要求定義的本發(fā)明的其他方面、發(fā)明的特征,以及優(yōu)點(diǎn)將變得明顯。通過(guò)參考隨附附圖,可以更好地理解本發(fā)明,并且很多目標(biāo)、特征和優(yōu)點(diǎn)對(duì)于本領(lǐng)域技術(shù)人員將變得明顯,其中圖1是其中可以實(shí)現(xiàn)此處所描述的方法的數(shù)據(jù)處理系統(tǒng)的框圖2提供了如圖1所示的信息處理系統(tǒng)環(huán)境的擴(kuò)展,以例示此處所描述的方法可以在聯(lián)網(wǎng)環(huán)境中操作的各種信息處理系統(tǒng)上執(zhí)行;圖3是非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)源之間檢索數(shù)據(jù)的圖形交互;圖4是示出由執(zhí)行結(jié)構(gòu)化源中的實(shí)體關(guān)系的實(shí)體解析器執(zhí)行的步驟和與從非結(jié)構(gòu)化數(shù)據(jù)源提取實(shí)體的實(shí)體提取器的交互的流程圖;以及圖5是示出實(shí)體解析器分析結(jié)構(gòu)化結(jié)果的基數(shù)性(cardinality)的步驟的流程圖。具體實(shí)施方式在下面的描述和圖形中闡述某些具體細(xì)節(jié),以提供對(duì)本發(fā)明的各實(shí)施例的全面的理解。然而,在下面的公開(kāi)中沒(méi)有闡述常常與計(jì)算和軟件技術(shù)相關(guān)聯(lián)的某些已知的細(xì)節(jié),以避免不必要地使本發(fā)明的各實(shí)施例模糊。進(jìn)一步,相關(guān)領(lǐng)域的普通技術(shù)人員可以理解,他們可以在沒(méi)有下面所描述的細(xì)節(jié)中的一個(gè)或多個(gè)的情況下實(shí)施本發(fā)明的其他實(shí)施例。最后,盡管在下面的公開(kāi)中參考步驟和順序描述了各種方法,但是,如此的描述是用于提供本發(fā)明的各實(shí)施例的清楚的實(shí)現(xiàn),步驟和步驟的順序不應(yīng)該理解為實(shí)施本發(fā)明所必需的。相反,下文旨在提供本發(fā)明的示例的詳細(xì)描述,不應(yīng)該理解為對(duì)本發(fā)明本身的限制。更確切些,任意數(shù)量的變體都可以落在本發(fā)明的范圍內(nèi),該范圍由描述之后的權(quán)利要求進(jìn)行定義。下面的具體實(shí)施方式將一般性地跟在如上文所闡述的
發(fā)明內(nèi)容之后,根據(jù)需要進(jìn)一步說(shuō)明和擴(kuò)展本發(fā)明的各個(gè)方面和各實(shí)施例的定義。為此,此具體實(shí)施方式首先闡述了圖1中的適合于實(shí)現(xiàn)與本發(fā)明相關(guān)聯(lián)的軟件和/或硬件技術(shù)的計(jì)算環(huán)境。圖2中例示的聯(lián)網(wǎng)環(huán)境是作為基本計(jì)算環(huán)境的擴(kuò)展,以強(qiáng)調(diào)現(xiàn)代的計(jì)算技術(shù)可以跨多個(gè)分離的設(shè)備執(zhí)行。圖1例示信息處理系統(tǒng)100,其是能夠執(zhí)行此處所描述的計(jì)算操作的計(jì)算機(jī)系統(tǒng)的簡(jiǎn)化示例。信息處理系統(tǒng)100包括耦合到處理器接口總線112的一個(gè)或多個(gè)處理器110。處理器接口總線112將處理器110連接到也稱為存儲(chǔ)器控制器集線器(MCH)的北橋115。北橋115連接到系統(tǒng)存儲(chǔ)器120,并提供供處理器110訪問(wèn)系統(tǒng)存儲(chǔ)器的裝置。圖形控制器125還連接到北橋115。在一個(gè)實(shí)施例中,PCIExpress總線118將北橋115連接到圖形控制器125。圖形控制器125連接到諸如計(jì)算機(jī)監(jiān)視器的顯示設(shè)備130。北橋115和南橋135使用總線119彼此連接在一起。在一個(gè)實(shí)施例中,總線是在北橋115和南橋135之間在每一方向以高的速度傳輸數(shù)據(jù)的直接媒體接口(DMI)總線。在另一實(shí)施例中,外圍組件互連(PCI)總線連接北橋和南橋。也稱為I/O控制器集線器(ICH)的南橋135是一般實(shí)現(xiàn)比由北橋所提供的能力慢的速度操作的能力的芯片。南橋135通常提供用于連接各個(gè)組件的各個(gè)總線。這些總線包括,例如,PCI和PCIExpress總線、ISA總線、系統(tǒng)管理總線(SMBus或SMB),和/或低管腳數(shù)(LPC)總線。LPC總線常常連接低帶寬設(shè)備,如引導(dǎo)ROM196和“舊式”I/O設(shè)備(使用“超級(jí)I/O”芯片)。“舊式”I/O設(shè)備(198)可以包括,例如,串行和并行端口、鍵盤(pán)、鼠標(biāo)和/或軟盤(pán)控制器。LPC總線還將南橋135連接到可信平臺(tái)模塊(TPM)195。南橋135中常常包括的其他組件包括直接存儲(chǔ)器訪問(wèn)(DMA)控制器、可編程中斷控制器(PIC),以及使用總線184將南橋135連接到諸如硬盤(pán)驅(qū)動(dòng)器的非易失存儲(chǔ)設(shè)備185的存儲(chǔ)設(shè)備控制器。ExpressCard155是將熱可插入設(shè)備連接到信息處理系統(tǒng)的插槽。ExpressCard155在它使用通用串行總線(USB)和PCIExpress總線連接到南橋135時(shí),支持PCIExpress和USB連接。南橋135包括USB控制器140,該USB控制器140提供到連接到USB的設(shè)備的USB連接。這些設(shè)備包括Webcam(照像機(jī))150、紅外線(IR)接收器148、鍵盤(pán)和跟蹤板144,以及提供無(wú)線個(gè)人區(qū)域網(wǎng)絡(luò)(PAN)的藍(lán)牙設(shè)備146。USB控制器140還提供到諸如鼠標(biāo)、可移動(dòng)非易失存儲(chǔ)設(shè)備145、調(diào)制解調(diào)器、網(wǎng)卡、ISDN連接器、傳真機(jī)、打印機(jī)、USB集線器的其他各種USB連接的設(shè)備142,以及許多其他類型的USB連接的設(shè)備的USB連接。盡管可移動(dòng)非易失存儲(chǔ)設(shè)備145被示為USB連接的設(shè)備,但是,可移動(dòng)非易失存儲(chǔ)設(shè)備145也可以使用諸如Firewire接口等等不同的接口來(lái)連接。無(wú)線局域網(wǎng)(LAN)設(shè)備175經(jīng)由PCI或PCIExpress總線172連接到南橋135。LAN設(shè)備175通常實(shí)現(xiàn)全部使用相同協(xié)議來(lái)在信息處理系統(tǒng)100和另一個(gè)計(jì)算機(jī)系統(tǒng)或設(shè)備之間進(jìn)行無(wú)線通信的空中下載調(diào)制技術(shù)的IEEE802.11標(biāo)準(zhǔn)中的一個(gè)。光存儲(chǔ)設(shè)備190使用串行ATA(SATA)總線188連接到南橋135。串行ATA適配器和設(shè)備通過(guò)高速串行鏈路進(jìn)行通信。串行ATA總線還將南橋135連接到諸如硬盤(pán)驅(qū)動(dòng)器的其他形式的存儲(chǔ)設(shè)備。諸如聲卡的音頻電路160經(jīng)由總線158連接到南橋135。音頻電路160還提供諸如音頻線路輸入和光學(xué)數(shù)字音頻輸入端口162、光學(xué)數(shù)字輸出和耳機(jī)插孔164、內(nèi)部揚(yáng)聲器166,以及內(nèi)部麥克風(fēng)168的功能。以太網(wǎng)控制器170使用諸如PCI或PCIExpress總線的總線,連接到南橋135。以太網(wǎng)控制器170將信息處理系統(tǒng)100連接到諸如局域網(wǎng)(LAN)、因特網(wǎng)的計(jì)算機(jī)網(wǎng)絡(luò),及其他公共和專用計(jì)算機(jī)網(wǎng)絡(luò)。盡管圖1示出一種信息處理系統(tǒng),但是,信息處理系統(tǒng)可以采用許多形式。例如,信息處理系統(tǒng)可以采取臺(tái)式機(jī)、服務(wù)器、便攜式、膝上型計(jì)算機(jī)、筆記本、移動(dòng)因特網(wǎng)設(shè)備的形式,或其他要素(factor)計(jì)算機(jī)或數(shù)據(jù)處理系統(tǒng)。另外,信息處理系統(tǒng)可以使用其他要素,如個(gè)人數(shù)字助理(PDA)、游戲設(shè)備、ATM機(jī)器、便攜式電話設(shè)備、通信設(shè)備或包括處理器和存儲(chǔ)器的其他設(shè)備。圖2提供如圖1所示的信息處理系統(tǒng)環(huán)境的擴(kuò)展,以例示此處所描述的方法可以在聯(lián)網(wǎng)環(huán)境中操作的各種信息處理系統(tǒng)上執(zhí)行。信息處理系統(tǒng)的類型從小的手持式設(shè)備,如手持式計(jì)算機(jī)/移動(dòng)電話210,到大型機(jī)系統(tǒng),如大型計(jì)算機(jī)270。手持式計(jì)算機(jī)210的示例包括個(gè)人數(shù)字助理(PDA)、諸如MP3播放器的個(gè)人娛樂(lè)設(shè)備、便攜式電視機(jī)以及CD播放器。信息處理系統(tǒng)的其他示例包括筆輸入計(jì)算機(jī)或手寫(xiě)板計(jì)算機(jī)、計(jì)算機(jī)220、膝上型計(jì)算機(jī)或筆記本、計(jì)算機(jī)230、工作站M0、個(gè)人計(jì)算機(jī)系統(tǒng)250以及服務(wù)器沈0。由信息處理系統(tǒng)280表示在圖2中沒(méi)有單獨(dú)示出的其他類型的信息處理系統(tǒng)。如圖所示,各種信息處理系統(tǒng)可以使用計(jì)算機(jī)網(wǎng)絡(luò)200聯(lián)網(wǎng)在一起??梢杂脕?lái)互連各種信息處理系統(tǒng)的計(jì)算機(jī)網(wǎng)絡(luò)的類型包括局域網(wǎng)(LAN)、無(wú)線局域網(wǎng)(WLAN)、因特網(wǎng)、公用交換電話網(wǎng)(PSTN)、其他無(wú)線網(wǎng)絡(luò),以及可以用來(lái)互連信息處理系統(tǒng)的任何其他網(wǎng)絡(luò)拓?fù)?。許多信息處理系統(tǒng)包括諸如硬盤(pán)驅(qū)動(dòng)器和/或非易失性存儲(chǔ)器的非易失性數(shù)據(jù)存儲(chǔ)。如圖2所示的一些信息處理系統(tǒng)描繪了單獨(dú)的非易失性數(shù)據(jù)存儲(chǔ)(服務(wù)器260利用非易失性數(shù)據(jù)存儲(chǔ)沈5,大型計(jì)算機(jī)270利用非易失性數(shù)據(jù)存儲(chǔ)275,而信息處理系統(tǒng)280利用非易失性數(shù)據(jù)存儲(chǔ)觀幻。非易失性數(shù)據(jù)存儲(chǔ)可以是各種信息處理系統(tǒng)外部的組件或者也可以是其中一個(gè)信息處理系統(tǒng)的內(nèi)部的組件。另外,可移動(dòng)非易失存儲(chǔ)設(shè)備145可以使用各種技術(shù)在兩個(gè)或更多信息處理系統(tǒng)之間共享,如將可移動(dòng)非易失存儲(chǔ)設(shè)備145連接到信息處理系統(tǒng)的USB端口或其他連接ο圖3是非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)源之間檢索數(shù)據(jù)的圖形交互。非結(jié)構(gòu)化數(shù)據(jù)源325包括專用數(shù)據(jù)源以及公開(kāi)可用的數(shù)據(jù)源,如因特網(wǎng)上可用的那些數(shù)據(jù)源。使用如公開(kāi)可用的搜索引擎的搜索引擎320來(lái)搜索非結(jié)構(gòu)化數(shù)據(jù)源。提供初始項(xiàng)作為對(duì)非結(jié)構(gòu)化數(shù)據(jù)源的搜索項(xiàng)。例如,在執(zhí)法實(shí)現(xiàn)中,初始項(xiàng)可以是在逮捕過(guò)程中收集的數(shù)據(jù),如嫌疑人的姓名、出生日期、車輛標(biāo)牌信息、社會(huì)保障號(hào)碼,以及在逮捕時(shí)收集的其他數(shù)據(jù)。實(shí)體提取器340被用來(lái)從由對(duì)非結(jié)構(gòu)化數(shù)據(jù)源的搜索產(chǎn)生的搜索結(jié)果(“擊中(hit)”)提取數(shù)據(jù)。實(shí)體提取器是標(biāo)識(shí)非結(jié)構(gòu)化數(shù)據(jù)集內(nèi)的數(shù)據(jù)“類型”的市場(chǎng)上可買到的產(chǎn)品。例如,實(shí)體提取器可以基于數(shù)字的位數(shù)和格式,標(biāo)識(shí)非結(jié)構(gòu)化的搜索結(jié)果內(nèi)的一段數(shù)據(jù)(“項(xiàng)”)是可能的信用卡號(hào)。另一項(xiàng)可能看起來(lái)像“公司名稱”,而非結(jié)構(gòu)化數(shù)據(jù)中的另一項(xiàng)可能看起來(lái)像地址、電話號(hào)碼,或任意數(shù)量的其他數(shù)據(jù)類型。實(shí)體提取器的結(jié)果是被傳遞到實(shí)體解析器310的數(shù)據(jù)類型。實(shí)體解析器判斷此數(shù)據(jù)類型可能映射到哪些結(jié)構(gòu)化數(shù)據(jù)源(例如,數(shù)據(jù)庫(kù)表),以及對(duì)這種結(jié)構(gòu)化數(shù)據(jù)源執(zhí)行適當(dāng)?shù)牟樵儭@?,如果?shí)體提取器標(biāo)識(shí)諸如電話號(hào)碼的項(xiàng),實(shí)體解析器標(biāo)識(shí)具有電話號(hào)碼字段的結(jié)構(gòu)化數(shù)據(jù)源,并搜索這些字段以獲取從非結(jié)構(gòu)化數(shù)據(jù)源中提取的電話號(hào)碼(例如,“select~kfrom[table_name]wherephonenum="[phone_num]-其中,table_name是標(biāo)識(shí)的結(jié)構(gòu)化數(shù)據(jù)庫(kù)表的名稱,Phonenum是表內(nèi)的字段,而phone_nUm是從非結(jié)構(gòu)化數(shù)據(jù)源中提取的實(shí)際電話號(hào)碼(例如,202-555-1234)。實(shí)體解析器310還標(biāo)識(shí)“基數(shù)”數(shù)據(jù)項(xiàng),是非共同的并且非類屬的那些數(shù)據(jù)項(xiàng)。此基數(shù)數(shù)據(jù)項(xiàng)以及它們的相應(yīng)的實(shí)體類型是存儲(chǔ)在結(jié)果日志350中的那些。如圖所示,結(jié)果日志350中存儲(chǔ)的數(shù)據(jù)包括標(biāo)識(shí)的基數(shù)數(shù)據(jù),來(lái)自非結(jié)構(gòu)化數(shù)據(jù)源的相關(guān)“擊中”,以及實(shí)體數(shù)據(jù)(數(shù)據(jù)類型、來(lái)自結(jié)構(gòu)化數(shù)據(jù)源的數(shù)據(jù))。如圖所示,過(guò)程是遞歸的。實(shí)體解析器標(biāo)識(shí)基數(shù)數(shù)據(jù)項(xiàng),這些項(xiàng)(非共同的、非類屬項(xiàng))被搜索引擎320用來(lái)搜索非結(jié)構(gòu)化數(shù)據(jù)源325。然后,如上文所描述的,處理所產(chǎn)生的搜索“擊中”(結(jié)果)。作為遞歸、迭代過(guò)程,可以重復(fù)如圖3所示的處理許多次,產(chǎn)生存儲(chǔ)在結(jié)果日志350中的越來(lái)越多的結(jié)果。圖4是示出由執(zhí)行結(jié)構(gòu)化源中的實(shí)體關(guān)系的實(shí)體解析器執(zhí)行的步驟和與從非結(jié)構(gòu)化數(shù)據(jù)源提取實(shí)體的實(shí)體提取器的交互的流程圖。處理在400開(kāi)始,在步驟405中,接收搜索項(xiàng)。在初始查詢的情況下,可以從后端過(guò)程410接收搜索項(xiàng)。使用圖3介紹的示例,后端過(guò)程可以是當(dāng)逮捕嫌疑人并收集關(guān)于嫌疑人以及聲稱的犯罪的數(shù)據(jù)時(shí)進(jìn)行的預(yù)定過(guò)程。在步驟415,執(zhí)行實(shí)體關(guān)系解析過(guò)程,以便查詢結(jié)構(gòu)化數(shù)據(jù)源300。實(shí)體關(guān)系解析過(guò)程包括標(biāo)識(shí)結(jié)構(gòu)化數(shù)據(jù)源內(nèi)的諸如數(shù)據(jù)庫(kù)表的源,以搜索要使用的字段,以及正在被查詢的項(xiàng)。例如,使用上面的逮捕記錄示例,表可以是以前逮捕記錄表,字段可以是電話號(hào)碼字段,其中,過(guò)程搜索匹配相同電話號(hào)碼的其他逮捕記錄。如果其他嫌疑人也使用了相同電話號(hào)碼,則此電話號(hào)碼對(duì)于將嫌疑人彼此關(guān)聯(lián)或聯(lián)系很重要。然而,此時(shí),過(guò)程不推斷特定數(shù)據(jù)片段的重要性或相關(guān)性。相反,步驟415將查詢結(jié)果存儲(chǔ)在原始結(jié)果420中。然后,由預(yù)先定義的過(guò)程425分析存儲(chǔ)在原始結(jié)果420中的結(jié)果的基數(shù)性(參見(jiàn)圖5和對(duì)應(yīng)的文本,關(guān)于基數(shù)性分析的處理細(xì)節(jié))。基于基數(shù)性分析,對(duì)數(shù)據(jù)是否實(shí)際上是基數(shù)數(shù)據(jù)進(jìn)行判斷(判斷430)。如果數(shù)據(jù)是基數(shù)數(shù)據(jù),那么,判斷430分支到“是”分支432,在步驟435,在預(yù)先定義的過(guò)程425中執(zhí)行的非結(jié)構(gòu)化的搜索所產(chǎn)生的搜索擊中被發(fā)送到實(shí)體提取器處理460,供進(jìn)一步處理。另外,在步驟440,基數(shù)數(shù)據(jù)、實(shí)體數(shù)據(jù)以及相關(guān)聯(lián)的搜索擊中被存儲(chǔ)在結(jié)果數(shù)據(jù)存儲(chǔ)350中。返回到判斷430,如果由預(yù)先定義的過(guò)程425執(zhí)行的分析判斷數(shù)據(jù)不是基數(shù)數(shù)據(jù),那么,判斷430分支到“否”分支442,繞過(guò)(跳過(guò))步驟435和440,以便非基數(shù)結(jié)果不被存儲(chǔ)在數(shù)據(jù)存儲(chǔ);350中。對(duì)原始結(jié)果數(shù)據(jù)存儲(chǔ)420中是否有更多結(jié)果需要處理進(jìn)行判斷(判斷445)。如果有更多結(jié)果要處理,那么,判斷445分支到“是”分支446,其循環(huán)回到預(yù)先定義的過(guò)程425以便分析下一結(jié)果的基數(shù)性,并如上文所述地處理數(shù)據(jù)。此循環(huán)持續(xù),直到原始結(jié)果420中的全部結(jié)果已被處理,此時(shí),判斷445分支到“否”分支448。如上文所述,過(guò)程是只要需要就可以重復(fù)的迭代、遞歸過(guò)程。對(duì)就是否要繼續(xù)迭代過(guò)程進(jìn)行判斷(判斷450)。如果期望繼續(xù)該過(guò)程,那么,判斷450分支到“是”分支452,其循環(huán)回去以從實(shí)體提取器接收下一搜索項(xiàng),如下面所述。此循環(huán)持續(xù),直到不再期望迭代,此時(shí),判斷450分支到“否”分支454,并且處理在455結(jié)束。實(shí)體提取器處理被示為在460開(kāi)始,在步驟465,實(shí)體提取器接收由對(duì)非結(jié)構(gòu)化數(shù)據(jù)源的搜索產(chǎn)生的搜索擊中,所產(chǎn)生的數(shù)據(jù)被判斷為基數(shù)數(shù)據(jù)。換言之,如圖5所描述,共同的項(xiàng)和類屬數(shù)據(jù)不被傳遞到實(shí)體提取器供進(jìn)一步處理。而這些,在非結(jié)構(gòu)化數(shù)據(jù)源中發(fā)現(xiàn)的也是非類屬的非共同的項(xiàng)被作為搜索“擊中”發(fā)送,供實(shí)體提取器進(jìn)行處理。在步驟470,可以是執(zhí)行實(shí)體提取的市場(chǎng)上可買到的工具的實(shí)體提取器,提取實(shí)體(例如,可能關(guān)于搜索擊中中發(fā)現(xiàn)的數(shù)據(jù)段(項(xiàng))的可能的字段名稱及其他元數(shù)據(jù))。對(duì)諸如電話號(hào)碼、信用卡號(hào)、地址等等的實(shí)體是否能夠被從搜索擊中中提取進(jìn)行判斷(判斷475)。如果從搜索擊中中提取了實(shí)體,那么,判斷475分支到“是”分支478,如上文所述,由從400開(kāi)始的實(shí)體解析器處理來(lái)處理提取的實(shí)體。另一方面,如果沒(méi)有提取到任何實(shí)體,那么,判斷475分支到“否”分支482,繞過(guò)步驟480。在步驟485,實(shí)體提取器等待下一實(shí)體提取請(qǐng)求到達(dá),此時(shí),步驟485循環(huán)回到步驟465,以便處理下一實(shí)體提取請(qǐng)求。圖5是示出實(shí)體解析器分析結(jié)構(gòu)化結(jié)果的基數(shù)性的步驟的流程圖。處理在500開(kāi)始,在步驟510,從原始結(jié)果數(shù)據(jù)存儲(chǔ)420中檢索結(jié)果。如圖4所描述,原始結(jié)果數(shù)據(jù)存儲(chǔ)420是當(dāng)實(shí)體解析器對(duì)來(lái)自結(jié)構(gòu)化數(shù)據(jù)源的數(shù)據(jù)執(zhí)行實(shí)體關(guān)系解析時(shí)存儲(chǔ)結(jié)果的地方。在步驟520,選擇接收到的結(jié)果中的第一項(xiàng)(例如,數(shù)據(jù)項(xiàng))。在步驟525,將此項(xiàng)與數(shù)據(jù)存儲(chǔ)530中找到的共同字和項(xiàng)進(jìn)行比較。對(duì)所選項(xiàng)是否是共同的項(xiàng)進(jìn)行判斷(判斷M0)。共同的項(xiàng)的示例將是拼寫(xiě)課本或傳統(tǒng)的詞典中找到的大多數(shù)單詞。非共同的項(xiàng)的示例將是一般在傳統(tǒng)的詞典中查找不到的人的名稱、電話號(hào)碼、組織的名稱等等。如果項(xiàng)是非共同的項(xiàng),那么,判斷540分支到“否”分支M5,在步驟550,將該項(xiàng)與類屬項(xiàng)進(jìn)行比較,以便標(biāo)識(shí)該項(xiàng)是類屬的還是非類屬的,盡管該項(xiàng)是非共同的。這是通過(guò)檢查類屬項(xiàng)數(shù)據(jù)存儲(chǔ)555來(lái)執(zhí)行的。類屬項(xiàng)的示例可以是為許多公眾成員所知的企業(yè)或其他組織的電話號(hào)碼或地址。例如,本地比薩餅店的電話號(hào)碼可以被視為類屬項(xiàng)。共同的項(xiàng)和類屬項(xiàng)一般對(duì)于搜索非結(jié)構(gòu)化數(shù)據(jù)沒(méi)有幫助,因?yàn)樗鼈儗⒎祷叵喈?dāng)多的相當(dāng)無(wú)意義的擊中。對(duì)該項(xiàng)是否是類屬項(xiàng)進(jìn)行判斷(判斷560)。如果該項(xiàng)是非類屬項(xiàng),那么,判斷560分支到“否”分支565,在步驟570,對(duì)于非結(jié)構(gòu)化數(shù)據(jù)源325搜索該項(xiàng)(現(xiàn)在已知為是非共同的和非類屬的)。使用非共同的、非類屬項(xiàng)作為搜索參數(shù),搜索引擎返回搜索結(jié)果或“擊中”,如其中找到了搜索項(xiàng)的文檔或網(wǎng)頁(yè)。返回到判斷540和560,如果發(fā)現(xiàn)項(xiàng)是共同的或類屬的,那么,判斷540和560分別分支到“是”分支572和575,繞過(guò)步驟570。如框580中所指出的,如果發(fā)現(xiàn)項(xiàng)是共同的或者類屬的,那么,跳過(guò)該項(xiàng),而不使用非結(jié)構(gòu)化數(shù)據(jù)源來(lái)進(jìn)行搜索。對(duì)原始結(jié)果數(shù)據(jù)存儲(chǔ)中是否有更多項(xiàng)要處理進(jìn)行判斷(判斷585)。如果原始結(jié)果中有更多項(xiàng)要處理,那么,判斷585分支到“是”分支588,其循環(huán)回去選擇并處理原始結(jié)果數(shù)據(jù)存儲(chǔ)中的下一項(xiàng)。此循環(huán)持續(xù),直到原始結(jié)果數(shù)據(jù)存儲(chǔ)中的全部結(jié)果已經(jīng)被處理,判斷585分支到“否”分支590,并且處理在595返回到調(diào)用過(guò)程(參見(jiàn)圖4)。對(duì)于使用上文所描述的處理的執(zhí)法實(shí)施例中的示例實(shí)現(xiàn),創(chuàng)建并處理逮捕記錄。首先,將逮捕記錄寫(xiě)入(log)到其中維護(hù)了關(guān)于逮捕及其他警察活動(dòng)的結(jié)構(gòu)化數(shù)據(jù)源的結(jié)構(gòu)系統(tǒng)中(后端系統(tǒng)的示例)。在此示例中,嫌疑人名為“MaxDobson”,出生日期是1980年7月6日,給定社會(huì)保障號(hào)碼,車牌號(hào)CT/234AS8?;趯?duì)于各個(gè)項(xiàng)的基數(shù)性分析,執(zhí)行非結(jié)構(gòu)化的搜索。在此示例中,假設(shè)對(duì)于Name實(shí)體和D0B/SSN實(shí)體的非結(jié)構(gòu)化的搜索不返回?fù)糁?。然而,使用車牌?hào)的對(duì)非結(jié)構(gòu)化數(shù)據(jù)源的搜索檢索特定事件報(bào)告(文檔“擊中”)。由實(shí)體提取器處理執(zhí)行的實(shí)體提取動(dòng)作提取地址“123MainStreet,Statenlsland,NY"0將此所提取的地址返回到實(shí)體解析器處理允許實(shí)體解析器查詢結(jié)構(gòu)化數(shù)據(jù)源,其中包括表示此地址被用作名為“MaximDobrovski”的出生日期為1980年7月6日,護(hù)照號(hào)碼為#238208(烏克蘭)的入境國(guó)際旅客的目的地的簽證入境記錄。結(jié)構(gòu)化數(shù)據(jù)源還指出,此嫌疑人位于從事于高端被盜竊車輛的單獨(dú)的觀察名單中(實(shí)體解析器中的不同的結(jié)構(gòu)化數(shù)據(jù)源)。來(lái)自非結(jié)構(gòu)化數(shù)據(jù)源的最終的數(shù)據(jù)、觀察名單上的人的真名實(shí)姓、其他實(shí)體信息以及相關(guān)聯(lián)的“擊中”,被存儲(chǔ)在結(jié)果數(shù)據(jù)存儲(chǔ)中,供分析。現(xiàn)在,執(zhí)法人員比在逮捕本身過(guò)程中收集的很少的數(shù)據(jù)段具有多得多的關(guān)于被逮捕的嫌疑人的相關(guān)數(shù)據(jù)。存儲(chǔ)在結(jié)果數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)的這種豐富性,是實(shí)體解析器和實(shí)體提取器協(xié)力地工作的結(jié)果,以遞歸地從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源提取數(shù)據(jù)。本發(fā)明的其中一個(gè)實(shí)現(xiàn)是客戶端應(yīng)用,S卩,可以例如駐留在計(jì)算機(jī)的隨機(jī)存取存儲(chǔ)器中的代碼模塊中的一組指令(程序代碼)或其他功能描述性材料。直到計(jì)算機(jī)需要,指令集可以存儲(chǔ)在另一計(jì)算機(jī)存儲(chǔ)器中,例如,在硬盤(pán)驅(qū)動(dòng)器中,或諸如光盤(pán)(最終用于CDROM中)或軟盤(pán)(最終用于軟盤(pán)驅(qū)動(dòng)器中)的可移動(dòng)存儲(chǔ)器中。如此,本發(fā)明可以實(shí)現(xiàn)為用于計(jì)算機(jī)中的計(jì)算機(jī)程序產(chǎn)品。另外,雖然所描述的各種方法方便地在通過(guò)軟件有選擇地激活或重新配置的通用計(jì)算機(jī)中實(shí)現(xiàn),但是,本領(lǐng)域普通技術(shù)人員還將認(rèn)識(shí)到,這種方法可以以硬件、以固件,或在用于執(zhí)行所需的方法步驟的更加專業(yè)化的設(shè)備中執(zhí)行這種方法。功能描述性材料是向機(jī)器給予功能的信息。功能描述性材料包括但不僅限于,計(jì)算機(jī)程序、指令、規(guī)則、事實(shí)、可計(jì)算函數(shù)的定義、對(duì)象以及數(shù)據(jù)結(jié)構(gòu)。盡管已經(jīng)示出和描述了本發(fā)明的特定實(shí)施例,但是,對(duì)于本領(lǐng)域技術(shù)人員明顯的是,基于此處的教導(dǎo),在不偏離本發(fā)明以及其廣泛的方面的情況下,可以作出更改和修改。因此,所附權(quán)利要求書(shū)將包含在它們的范圍內(nèi),所有這種更改和修改都將在本發(fā)明的正確的精神和范圍內(nèi)。此外,還可以理解,本發(fā)明僅僅由所附權(quán)利要求書(shū)來(lái)進(jìn)行定義。本領(lǐng)域本領(lǐng)域技術(shù)人員將理解,如果意圖在于引入的權(quán)利要求元素的特定編號(hào),在權(quán)利要求中將明確地詳述這種意圖,而在沒(méi)有這種詳述的情況下,不存在這種限制。對(duì)于非限制性示例,為幫助理解,下面的所附權(quán)利要求書(shū)包含使用引導(dǎo)性短語(yǔ)“至少一個(gè)”和“一個(gè)或多個(gè)”來(lái)引入權(quán)利要求元素。然而,使用這種短語(yǔ)不應(yīng)該解釋為暗示通過(guò)不定冠詞“a”或“an”引入權(quán)利要求元素將包含這種引入的權(quán)利要求元素的任何特定權(quán)利要求限制于只包含一個(gè)這種元素的發(fā)明,甚至在同一個(gè)權(quán)利要求包括引導(dǎo)性短語(yǔ)“一個(gè)或多個(gè)”或“至少一個(gè)”和諸如“a”或“an”的不定冠詞的情況下;這也適用于定冠詞在權(quán)利要求中的使用。權(quán)利要求1.一種機(jī)器實(shí)現(xiàn)的方法,包括使用搜索引擎,對(duì)一個(gè)或多個(gè)初始搜索項(xiàng)搜索第一組一個(gè)或多個(gè)非結(jié)構(gòu)化數(shù)據(jù)源;從第一組非結(jié)構(gòu)化數(shù)據(jù)源的搜索接收一個(gè)或多個(gè)搜索擊中;從所述搜索擊中檢索一個(gè)或多個(gè)項(xiàng);從與所檢索到的一個(gè)或多個(gè)項(xiàng)相對(duì)應(yīng)的所述搜索擊中提取一個(gè)或多個(gè)實(shí)體;使用所述一個(gè)或多個(gè)提取的實(shí)體和對(duì)應(yīng)的一個(gè)或多個(gè)項(xiàng)作為搜索參數(shù),查詢一個(gè)或多個(gè)結(jié)構(gòu)化數(shù)據(jù)源;從所述查詢,接收一個(gè)或多個(gè)查詢結(jié)果;使用所述搜索引擎,對(duì)作為搜索項(xiàng)的所述一個(gè)或多個(gè)查詢結(jié)果,搜索第二組一個(gè)或多個(gè)非結(jié)構(gòu)化數(shù)據(jù)源;以及將搜索擊中和所提取的實(shí)體記錄在結(jié)果數(shù)據(jù)存儲(chǔ)中。2.如權(quán)利要求1所述的方法,還包括基于所述查詢結(jié)果的基數(shù)性,分析所述一個(gè)或多個(gè)查詢結(jié)果,其中,所述分析還包括標(biāo)識(shí)來(lái)自所述一個(gè)或多個(gè)查詢結(jié)果的選定查詢結(jié)果是非共同的、非類屬項(xiàng);以及響應(yīng)于所述標(biāo)識(shí),使用所選查詢結(jié)果,執(zhí)行所述第二組一個(gè)或多個(gè)非結(jié)構(gòu)化數(shù)據(jù)源的搜索。3.如權(quán)利要求2所述的方法,還包括將使用所選查詢結(jié)果執(zhí)行所述搜索所產(chǎn)生的所述搜索擊中記錄在所述結(jié)果數(shù)據(jù)存儲(chǔ)中。4.如權(quán)利要求2所述的方法,還包括對(duì)所述一個(gè)或多個(gè)查詢結(jié)果,執(zhí)行實(shí)體關(guān)系解析分析。5.如權(quán)利要求4所述的方法,還包括將所述實(shí)體關(guān)系解析分析的結(jié)果存儲(chǔ)在原始結(jié)果數(shù)據(jù)存儲(chǔ)中,其中,對(duì)所述原始結(jié)果數(shù)據(jù)存儲(chǔ)中的每一個(gè)結(jié)果執(zhí)行基于基數(shù)性的所述分析。6.如權(quán)利要求2所述的方法,還包括通過(guò)比較每一個(gè)查詢結(jié)果與共同的項(xiàng)數(shù)據(jù)存儲(chǔ),判斷所述查詢結(jié)果中的一個(gè)或多個(gè)是共同的項(xiàng);跳過(guò)被判斷為共同的項(xiàng)的每一個(gè)查詢結(jié)果;處理被判斷為非共同的項(xiàng)的所述查詢結(jié)果,所述處理包括通過(guò)比較每一個(gè)非共同的項(xiàng)與類屬項(xiàng)數(shù)據(jù)存儲(chǔ),來(lái)判斷所述非共同的項(xiàng)中的一個(gè)或多個(gè)為類屬項(xiàng);跳過(guò)被判斷為類屬項(xiàng)的每一個(gè)查詢結(jié)果;以及通過(guò)利用所述搜索引擎,使用所述一個(gè)或多個(gè)非結(jié)構(gòu)化數(shù)據(jù)源,搜索被判斷為既非共同又非類屬的項(xiàng)的每一個(gè)查詢結(jié)果。7.如權(quán)利要求6所述的方法,其中,所述類屬項(xiàng)包括屬于公知設(shè)施的標(biāo)識(shí)數(shù)據(jù)。8.一種信息處理系統(tǒng),包括一個(gè)或多個(gè)處理器;所述處理器中的至少一個(gè)可訪問(wèn)的存儲(chǔ)器;所述處理器中的至少一個(gè)可訪問(wèn)的非易失存儲(chǔ)介質(zhì);存儲(chǔ)在所述存儲(chǔ)器中并由所述處理器中的至少一個(gè)執(zhí)行的一組指令,以便執(zhí)行下列動(dòng)作使用搜索引擎,對(duì)一個(gè)或多個(gè)初始搜索項(xiàng)搜索第一組一個(gè)或多個(gè)非結(jié)構(gòu)化數(shù)據(jù)源;從第一組非結(jié)構(gòu)化數(shù)據(jù)源的搜索接收一個(gè)或多個(gè)搜索擊中;從所述搜索擊中檢索一個(gè)或多個(gè)項(xiàng);從與所檢索到的一個(gè)或多個(gè)項(xiàng)相對(duì)應(yīng)的所述搜索擊中提取一個(gè)或多個(gè)實(shí)體;使用所述一個(gè)或多個(gè)提取的實(shí)體和對(duì)應(yīng)的一個(gè)或多個(gè)項(xiàng)作為搜索參數(shù),查詢一個(gè)或多個(gè)結(jié)構(gòu)化數(shù)據(jù)源;從所述查詢,接收一個(gè)或多個(gè)查詢結(jié)果;使用所述搜索引擎,對(duì)作為搜索項(xiàng)的所述一個(gè)或多個(gè)查詢結(jié)果,搜索第二組一個(gè)或多個(gè)非結(jié)構(gòu)化數(shù)據(jù)源;以及將搜索擊中和所提取的實(shí)體記錄在結(jié)果數(shù)據(jù)存儲(chǔ)中。9.如權(quán)利要求8所述的信息處理系統(tǒng),其中,所述動(dòng)作還包括基于所述查詢結(jié)果的基數(shù)性,分析所述一個(gè)或多個(gè)查詢結(jié)果,其中,所述分析還包括標(biāo)識(shí)來(lái)自所述一個(gè)或多個(gè)查詢結(jié)果的選定查詢結(jié)果是非共同的、非類屬項(xiàng);以及響應(yīng)于所述標(biāo)識(shí),使用所選查詢結(jié)果,執(zhí)行所述第二組一個(gè)或多個(gè)非結(jié)構(gòu)化數(shù)據(jù)源的搜索。10.如權(quán)利要求9所述的信息處理系統(tǒng),其中,所述動(dòng)作還包括將使用所選查詢結(jié)果執(zhí)行所述搜索所產(chǎn)生的所述搜索擊中記錄在所述結(jié)果數(shù)據(jù)存儲(chǔ)中。11.如權(quán)利要求9所述的信息處理系統(tǒng),其中,所述動(dòng)作還包括對(duì)所述一個(gè)或多個(gè)查詢結(jié)果執(zhí)行實(shí)體關(guān)系解析分析。12.如權(quán)利要求11所述的信息處理系統(tǒng),其中,所述動(dòng)作還包括將所述實(shí)體關(guān)系解析分析的結(jié)果存儲(chǔ)在原始結(jié)果數(shù)據(jù)存儲(chǔ)中,其中,對(duì)所述原始結(jié)果數(shù)據(jù)存儲(chǔ)中的每一個(gè)結(jié)果執(zhí)行基于基數(shù)性的所述分析。13.如權(quán)利要求9所述的信息處理系統(tǒng),其中,所述動(dòng)作還包括通過(guò)比較每一個(gè)查詢結(jié)果與共同的項(xiàng)數(shù)據(jù)存儲(chǔ),判斷所述查詢結(jié)果中的一個(gè)或多個(gè)是共同的項(xiàng);跳過(guò)被判斷為共同的項(xiàng)的每一個(gè)查詢結(jié)果;處理被判斷為非共同的項(xiàng)的所述查詢結(jié)果,所述處理包括通過(guò)比較每一個(gè)非共同的項(xiàng)與類屬項(xiàng)數(shù)據(jù)存儲(chǔ),來(lái)判斷所述非共同的項(xiàng)中的一個(gè)或多個(gè)為類屬項(xiàng);跳過(guò)被判斷為類屬項(xiàng)的每一個(gè)查詢結(jié)果;以及通過(guò)利用所述搜索引擎,使用所述一個(gè)或多個(gè)非結(jié)構(gòu)化數(shù)據(jù)源,搜索被判斷為既非共同又非類屬的項(xiàng)的每一個(gè)查詢結(jié)果。全文摘要本發(fā)明涉及結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源之間的相互的搜索和警告的方法和系統(tǒng)。提供了使用初始搜索項(xiàng)并利用搜索引擎來(lái)搜索非結(jié)構(gòu)化數(shù)據(jù)源的方法。收集從搜索引擎接收到的搜索擊中,并從搜索擊中檢索可能的搜索項(xiàng)。從搜索擊中提取實(shí)體,其中實(shí)體與所提取的項(xiàng)相對(duì)應(yīng)。所提取的實(shí)體和項(xiàng)被用來(lái)查詢諸如關(guān)系數(shù)據(jù)庫(kù)中的表的結(jié)構(gòu)化數(shù)據(jù)源。然后,從對(duì)結(jié)構(gòu)化數(shù)據(jù)源執(zhí)行的查詢接收查詢結(jié)果。這些查詢結(jié)果被用來(lái)進(jìn)一步搜索非結(jié)構(gòu)化數(shù)據(jù)源,以再次接收從其中提取項(xiàng)和實(shí)體的搜索擊中。將搜索擊中和所提取的實(shí)體存儲(chǔ)在結(jié)果數(shù)據(jù)存儲(chǔ)中供分析。文檔編號(hào)G06F17/30GK102033900SQ201010296168公開(kāi)日2011年4月27日申請(qǐng)日期2010年9月29日優(yōu)先權(quán)日2009年10月6日發(fā)明者D·M·斯羅安申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司