專利名稱:用于基于知識(shí)的數(shù)據(jù)挖掘系統(tǒng)的數(shù)據(jù)存儲(chǔ)庫的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘系統(tǒng)。
背景技術(shù):
數(shù)據(jù)挖掘是從信息資料庫(corpus)中抽取用戶所需信息的過程。數(shù)據(jù)挖掘的最普遍例子可能是包含到多數(shù)web瀏覽器中的搜索引擎能力,它允許用戶輸入關(guān)鍵字,隨后返回文檔列表(有時(shí)列舉數(shù)千個(gè)文檔),用戶隨后仔細(xì)查看所述文檔列表,找出他或她需要的信息。
現(xiàn)有的搜索引擎,例如AltaVista,Google,Northen Light,F(xiàn)AST和Inktomi通過在web上“爬行”(crawl)而工作,即,它們?cè)L問web頁和被訪問的網(wǎng)頁超鏈接的網(wǎng)頁,產(chǎn)生在web頁上出現(xiàn)的單詞的倒排索引。索引使單詞與具有關(guān)鍵字的網(wǎng)頁的標(biāo)識(shí)(稱為“統(tǒng)一資源定位符”或者“URL”)連系起來。通過利用請(qǐng)求的關(guān)鍵字作為輸入?yún)?shù),訪問索引,隨后從索引返回滿足查詢的URL,以響應(yīng)查詢。通常利用例如鏈接信息或者關(guān)鍵字出現(xiàn)頻率,依據(jù)相關(guān)性對(duì)返回的網(wǎng)頁標(biāo)識(shí)排序。
盡管多數(shù)商業(yè)搜索引擎使用的相關(guān)性排序,查找特定類型的信息通常需要人們仔細(xì)查看查詢結(jié)果。這是因?yàn)闉榱藚^(qū)別良莠,通常需要特定領(lǐng)域的專業(yè)知識(shí)。事實(shí)上,如同本發(fā)明認(rèn)識(shí)的那樣,情況可能是要求一個(gè)專家利用他或她的專業(yè)標(biāo)準(zhǔn)選擇文檔子集來處理文檔,第二名專家隨后必須使用他或她的專業(yè)標(biāo)準(zhǔn)來查找來自第一專家的子集中的所需信息。這工作量大且瑣碎,并且盡管只是使用數(shù)據(jù)的高級(jí)工作的必要前序步驟,但是和計(jì)劃的任意其它階段相比,會(huì)消耗更多的時(shí)間。
例如,考慮答復(fù)營銷問題,例如“西北太平洋地區(qū)中,我們的商業(yè)客戶在品牌實(shí)力和價(jià)值方面,對(duì)競爭對(duì)手的保健產(chǎn)品有什么看法?”。Web頁的分析可能開始于利用競爭對(duì)手名的關(guān)鍵字搜索,但是隨后為了除去對(duì)回答該問題沒用的,可能多達(dá)成千上萬的其它相關(guān)信息,例如政府報(bào)告,需要花費(fèi)相當(dāng)多的專門時(shí)間。在第一次過濾步驟之后,可能留下離題更遠(yuǎn)的許多文檔,例如青少年聊天室文檔,所述這些文檔可能提及競爭對(duì)手的名稱,但是在哪些類型的人口統(tǒng)計(jì)學(xué)信息構(gòu)成要排隊(duì)的目標(biāo)部分方面,需要專業(yè)知識(shí)。
或者考慮簡單的問題“Adobe Acrobat7是否與MS Word7兼容?”向上述搜索引擎之一提出的該簡單查詢產(chǎn)生一組3千3百萬web頁的結(jié)果,其中的多數(shù)不包含所尋求的“是”或“否”答案。排除無用網(wǎng)頁要求專家查看每一頁,確定該頁是否是包含程序兼容性信息的那種網(wǎng)頁。隨后要求另一專家檢查從第一個(gè)專家傳遞來的網(wǎng)頁,以確定網(wǎng)頁是否確實(shí)包含對(duì)所提出的具體問題的回答。易于認(rèn)識(shí)到仔細(xì)查看大量信息的層疊式專家規(guī)則會(huì)消耗過多的時(shí)間。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一方面,提供一種系統(tǒng),包括包含實(shí)體的一個(gè)數(shù)據(jù)存儲(chǔ)庫,和與數(shù)據(jù)存儲(chǔ)庫通信并利用第一組規(guī)則產(chǎn)生輸出的至少一個(gè)低級(jí)分析引擎。至少一個(gè)高級(jí)分析引擎接收低級(jí)分析引擎的輸出,并利用第二組規(guī)則產(chǎn)生輸出。所述輸出與數(shù)據(jù)存儲(chǔ)庫中的實(shí)體相關(guān)。
在一個(gè)例證的非限制性實(shí)施例中,數(shù)據(jù)存儲(chǔ)庫可以是數(shù)據(jù)庫,并且可包括垂直表和水平表。利用輸出之一,可輸入垂直表,利用實(shí)體標(biāo)識(shí)可輸入水平表,所述實(shí)體標(biāo)識(shí)對(duì)對(duì)應(yīng)的實(shí)體標(biāo)識(shí)和實(shí)體類型編碼。輸出可以是代表相關(guān)實(shí)體的相應(yīng)特征的關(guān)鍵字。另一方面,數(shù)據(jù)存儲(chǔ)庫可以是,例如文件系統(tǒng)。
如果需要,可使索引器(indexer)與數(shù)據(jù)存儲(chǔ)庫相關(guān)聯(lián),同樣可使半導(dǎo)體實(shí)現(xiàn)的快速高速緩存和查詢處理器與數(shù)據(jù)存儲(chǔ)庫相關(guān)聯(lián),從而執(zhí)行來自至少一個(gè)分析引擎的查詢。另外,可使工作隊(duì)列與分析引擎相關(guān)聯(lián)。
優(yōu)選的非限制性索引器包括在實(shí)體數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),例如表格中發(fā)現(xiàn)的關(guān)鍵字和關(guān)鍵字值的索引。它還可包含保存對(duì)“關(guān)鍵字k具有值v?”形式的查詢的“是”或“否”值的布爾索引。此外,索引器可獲得保存關(guān)鍵字值范圍的范圍索引一般化,以及文本索引。如果需要,索引器可以是倒排文件文本索引器的概括,所述倒排文件文本索引器給web文檔編索引,并向文檔提供關(guān)鍵詞搜索應(yīng)用編程接口(API)。
此外,優(yōu)選的索引器可保持特定實(shí)體的定義關(guān)鍵字,以便允許布爾查詢。此外,索引器可獲得圖形數(shù)據(jù),以便支持入鏈接和出鏈接查詢。有利的是,可使索引權(quán)標(biāo)化(tokenization)和在索引器中進(jìn)行索引分離開。
另一方面,一種保存數(shù)據(jù),從而支持基于知識(shí)的數(shù)據(jù)挖掘系統(tǒng)的方法包括在至少一個(gè)數(shù)據(jù)存儲(chǔ)庫中,把實(shí)體保存在水平表和垂直表中。該方法還包括利用至少一個(gè)第一分析引擎,與數(shù)據(jù)存儲(chǔ)庫通信,并利用與第一分析引擎相關(guān)的第一組規(guī)則產(chǎn)生輸出。如下所述,該方法還包括把輸出發(fā)送給至少一個(gè)第二分析引擎,隨后利用與第二引擎相關(guān)的第二組規(guī)則,產(chǎn)生輸出。所述輸出與數(shù)據(jù)存儲(chǔ)庫的實(shí)體相關(guān)。
下面參考附圖,舉例說明本發(fā)明的一個(gè)優(yōu)選實(shí)施例,其中圖1是優(yōu)選的系統(tǒng)體系結(jié)構(gòu)的方框圖;圖2是整體邏輯的流程圖;圖3是水平表的示意圖;圖4是垂直表的示意圖;圖5是例證的挖掘器邏輯的流程圖。
具體實(shí)施例方式
參見圖1,圖1表示了應(yīng)答客戶數(shù)據(jù)請(qǐng)求的系統(tǒng)10。系統(tǒng)10實(shí)質(zhì)上綜合許多專家的知識(shí),仔細(xì)查看大量的數(shù)據(jù),從而應(yīng)答可能是相當(dāng)復(fù)雜的信息請(qǐng)求,例如上面討論的信息請(qǐng)求。在非限制性實(shí)施例中,系統(tǒng)10可用于企業(yè)數(shù)據(jù)分析,競爭情報(bào),趨勢,發(fā)現(xiàn),web門戶服務(wù),聚類(clustering)和分類學(xué)(taxonomy)產(chǎn)生。另外,系統(tǒng)10可用于支持目標(biāo)功能,所述目標(biāo)功能需要重要的嵌入式專業(yè)知識(shí),例如一組采購專用服務(wù)(企業(yè)的特定部門對(duì)此感興趣)。
系統(tǒng)10可在單個(gè)售主位置,托管在一個(gè)處理器或者一群處理器上,以便以服務(wù)格式應(yīng)答客戶數(shù)據(jù)請(qǐng)求。或者,可向客戶提供系統(tǒng)10的多個(gè)部分,以便在客戶設(shè)施上執(zhí)行數(shù)據(jù)挖掘。
如同下面將說明的那樣,系統(tǒng)10包括數(shù)據(jù)收集層,數(shù)據(jù)存儲(chǔ)層,數(shù)據(jù)挖掘?qū)樱瑪?shù)據(jù)表示層和系統(tǒng)管理層。開始于圖1中左側(cè),首先論述數(shù)據(jù)搜集層,Web爬行器12訪問萬維網(wǎng)14(如果需要,訪問因特網(wǎng)的其它部分)。爬行器12還可訪問企業(yè)內(nèi)部網(wǎng)16,包括只能通過正確的驗(yàn)證獲得的私有信息。最好,爬行器12連續(xù)爬行web 14,根據(jù)網(wǎng)頁更新的頻率和其它標(biāo)準(zhǔn),一些網(wǎng)頁比其它網(wǎng)頁被更經(jīng)常爬行,并利用數(shù)據(jù)層應(yīng)用編程接口(API)20,把爬過的網(wǎng)頁輸出給數(shù)據(jù)存儲(chǔ)庫18。在一個(gè)優(yōu)選的,非限制性實(shí)施例中,接口20是IBM的稱為“Vinci xTalk”的面向服務(wù)的協(xié)議,它是一種輕量的,與覆蓋監(jiān)視、登錄和數(shù)據(jù)傳送的一組使用協(xié)定耦接的基于XML的協(xié)議。用xTalk幀規(guī)定系統(tǒng)內(nèi)的網(wǎng)絡(luò)級(jí)API。
另外,優(yōu)選的爬行器包括反饋通道,從而其操作可根據(jù)需要被改變。在一個(gè)優(yōu)選的非限制性實(shí)施例中,爬行器12是在作為參考包含于此的美國專利No.6263364中公開的爬行器,或者是同樣作為參考包含于此的,IBM的同時(shí)待審的美國專利申請(qǐng)序列號(hào)No.09/2399921,“SYSTEM AND METHOD FOR FOCUSSED WEB CRAWLING”中陳述的爬行器。除了利用爬行器12獲得數(shù)據(jù)之外,如果需要,系統(tǒng)10可包括處理來自客戶和第三方數(shù)據(jù)庫24的數(shù)據(jù),并把處理后的數(shù)據(jù)發(fā)送給數(shù)據(jù)存儲(chǔ)庫18的結(jié)構(gòu)化數(shù)據(jù)收集器22。
就數(shù)據(jù)存儲(chǔ)庫18來說,在一個(gè)實(shí)施例中,數(shù)據(jù)存儲(chǔ)庫18是諸如IBM的DB2系統(tǒng)之類的關(guān)系數(shù)據(jù)庫系統(tǒng)(RDBMS)。在其它實(shí)施例中,可以使用其它系統(tǒng),例如文件系統(tǒng)。下面的公開內(nèi)容適用于這兩種數(shù)據(jù)存儲(chǔ)庫。
在一個(gè)實(shí)施例中,存儲(chǔ)庫18可包括在單個(gè)計(jì)算機(jī)或者在多個(gè)計(jì)算機(jī)上執(zhí)行的集中式程序。下面描述的挖掘器可在獨(dú)立的計(jì)算機(jī)上執(zhí)行,請(qǐng)求存儲(chǔ)庫程序讀寫數(shù)據(jù)。另一方面,存儲(chǔ)庫18可分布在多個(gè)計(jì)算機(jī)上,同時(shí)挖掘器在這些計(jì)算機(jī)上并行執(zhí)行。在這種實(shí)施例中,文檔可從存儲(chǔ)庫的本地部分被讀入存儲(chǔ)器,通過一系列的相關(guān)或獨(dú)立挖掘器通過存儲(chǔ)器內(nèi),并被寫回到存儲(chǔ)庫,從而便于資源的有效使用。實(shí)際上,這兩種體系結(jié)構(gòu)都可存在于相同的系統(tǒng)10中,一些挖掘器在第二種體系結(jié)構(gòu)中更好地工作(例如,按頁工作的挖掘器),而其它挖掘器可能需要第一種體系結(jié)構(gòu)的額外開銷。
數(shù)據(jù)存儲(chǔ)庫18可與索引器26相關(guān)聯(lián),如果需要,還可與半導(dǎo)體實(shí)現(xiàn)的快速高速緩存28相關(guān)聯(lián)。查詢處理器30能夠訪問高速緩存28,索引器26,和數(shù)據(jù)存儲(chǔ)庫18,以便如下所述執(zhí)行挖掘器查詢。如下所述,挖掘器工作隊(duì)列可被實(shí)現(xiàn)成系統(tǒng)10的數(shù)據(jù)存儲(chǔ)層的一部分。
數(shù)據(jù)存儲(chǔ)庫18包含相當(dāng)大量的數(shù)據(jù),例如來自爬行器12的Web頁數(shù)據(jù)。另外,數(shù)據(jù)存儲(chǔ)庫18包含代表基本數(shù)據(jù)的實(shí)體,如同下面所述。這些實(shí)體具有對(duì)實(shí)體標(biāo)識(shí)和實(shí)體類型,例如“web頁”,“超鏈接”,“個(gè)人”,“公司”,“物品”編碼的相應(yīng)通用身份(UEID)。另外,實(shí)體可包含具有由下述數(shù)據(jù)挖掘器附到實(shí)體上的相關(guān)關(guān)鍵字值的關(guān)鍵字。例如,網(wǎng)頁實(shí)體由產(chǎn)生稱為“CrawlContent”的關(guān)鍵字的挖掘器處理,所述關(guān)鍵字包含相關(guān)web頁的http內(nèi)容(從而,關(guān)鍵字值相當(dāng)長)??傊瑢?shí)體可被保存在文件系統(tǒng)中,諸如其中用水平表和垂直表表現(xiàn)實(shí)體的DB2之類的數(shù)據(jù)庫系統(tǒng),或者其它存儲(chǔ)系統(tǒng)。
除了其它之外,索引器26還包括在存儲(chǔ)庫中發(fā)現(xiàn)的關(guān)鍵字和關(guān)鍵字值的索引。索引器26包含布爾索引,所述布爾索引保存“關(guān)鍵字k具有值v?”形式的查詢的“是”或“否”值。另外,索引器26可包含保存關(guān)鍵字值的范圍的范圍索引,例如地理范圍,作為基本數(shù)據(jù)的常規(guī)索引的文本索引,以及需要的其它索引。
總之,優(yōu)選的索引(并且,當(dāng)數(shù)據(jù)存儲(chǔ)庫為數(shù)據(jù)庫,數(shù)據(jù)存儲(chǔ)表時(shí))并不指示特定的名稱或文本可能出現(xiàn)于例如某一web頁上的何處,相反只指示某一網(wǎng)頁具有特定的特征,或者特定的文本元素出現(xiàn)在該網(wǎng)頁上的某處。這樣,和以其它方式理應(yīng)所需的存儲(chǔ)空間相比,系統(tǒng)10數(shù)據(jù)存儲(chǔ)庫的較高粒性需要較少的存儲(chǔ)空間,便于實(shí)際實(shí)現(xiàn)。但是如果需要,可以指示特定的名稱或文本出現(xiàn)于例如某一web頁上的何處。
就系統(tǒng)10的數(shù)據(jù)存儲(chǔ)層的其它細(xì)節(jié)來說,優(yōu)選的非限制性索引器26是常規(guī)的倒排文件文本索引器的一般化。在一個(gè)示例中,它索引web文檔,并向文檔提供關(guān)鍵詞搜索應(yīng)用編程接口(API)。與某一文檔相關(guān)的一組關(guān)鍵詞可以僅僅是該文檔的單詞,或者可根據(jù)需要,由下述挖掘器添加另外的信息,例如網(wǎng)頁上的地理位置,恰當(dāng)?shù)拿Q,系統(tǒng)10已知的產(chǎn)品或飯店或其它實(shí)體的引用,網(wǎng)頁的語義分析的結(jié)果等等。關(guān)鍵字搜索API隨后允許查詢包括任意這些擴(kuò)展的各組關(guān)鍵詞。
在其它示例中,索引器26保持關(guān)于特定實(shí)體的定義關(guān)鍵字,以便允許布爾查詢,或者圖形數(shù)據(jù)支持入鏈接和出鏈接查詢等等。為了提供這種普遍性,使權(quán)標(biāo)化(tokenization)和進(jìn)行索引分離開來。更具體地說,索引器26預(yù)期接收標(biāo)記流,而不是文檔流。因此,在進(jìn)行索引之前進(jìn)行權(quán)標(biāo)化。借助每個(gè)被索引的標(biāo)記(token),標(biāo)記位置(流中的標(biāo)記偏移位置)和用戶定義的標(biāo)記數(shù)據(jù)一想被保存,用戶定義的標(biāo)記數(shù)據(jù)可以是任意的。這種簡化模型便于有效索引,并提供供各種應(yīng)用程序之用的通用API。此外,分離允許來自規(guī)則的不同實(shí)施例(例如來自不同的挖掘器)的標(biāo)記一起被編制索引。
可同時(shí)執(zhí)行數(shù)種形式的索引器26。為了簡化起見,考慮保持和整個(gè)一組被爬行網(wǎng)頁對(duì)應(yīng)的標(biāo)記的“主要”文本索引器。如下關(guān)于本發(fā)明的數(shù)據(jù)挖掘器所述,挖掘器把“關(guān)鍵字”附到保存于數(shù)據(jù)存儲(chǔ)庫18中的實(shí)體上。與索引器26相關(guān)的權(quán)標(biāo)化器嚴(yán)格遵循該方法。在一個(gè)非限制性實(shí)施例中,文本權(quán)標(biāo)化器可以由Boeblingen的IBM Research andIBM Software產(chǎn)生的TAF(文本分析框架)權(quán)標(biāo)化器為基礎(chǔ)。該權(quán)標(biāo)化器讀取網(wǎng)頁數(shù)據(jù),關(guān)于每個(gè)網(wǎng)頁寫入基本權(quán)標(biāo)化的結(jié)果。其它權(quán)標(biāo)化器隨后可使用該數(shù)據(jù),或者使用它們選擇的原始網(wǎng)頁數(shù)據(jù),把其它標(biāo)記寫入存儲(chǔ)庫。例如,一個(gè)權(quán)標(biāo)化器可匹配恰當(dāng)?shù)拿Q,并照此標(biāo)注它們,另一個(gè)權(quán)標(biāo)化器可以只讀取恰當(dāng)名稱權(quán)標(biāo)化器的輸出,可以寫包含把恰當(dāng)名稱映射到系統(tǒng)10中別處的特定已知實(shí)體的元數(shù)據(jù)的標(biāo)記。所有這些權(quán)標(biāo)化器都向主要索引器26注冊(cè)。
在已陳述優(yōu)選的,非限制性索引器26細(xì)節(jié)的情況下,下面說明查詢處理器30。通過使用可擴(kuò)展查詢語言調(diào)用查詢處理器30,下面描述的挖掘器可以請(qǐng)求來自數(shù)據(jù)存儲(chǔ)庫的數(shù)據(jù)流。訪問查詢處理器30的范例和訪問索引器26的范例完全相同,即請(qǐng)求者發(fā)送服務(wù)專用查詢(這種情況下,用可擴(kuò)展查詢語言編寫的語句),并從查詢處理器30接收數(shù)據(jù)流。查詢可涉及利用標(biāo)準(zhǔn)流組合器(布爾運(yùn)算符,例如AND和OR,數(shù)據(jù)庫結(jié)合運(yùn)算符,例如內(nèi)部和外部結(jié)合,分類運(yùn)算符,和例如通過在流中的每個(gè)UEID中添加某一關(guān)鍵字的值,在流中添加額外信息的運(yùn)算符),組合數(shù)個(gè)流。查詢語言能夠把任意流結(jié)合在一起。
如上所述,系統(tǒng)10的數(shù)據(jù)挖掘?qū)影ㄍ诰蚱鲙?2,挖掘器庫32包含軟件實(shí)現(xiàn)的數(shù)據(jù)挖掘器,所述數(shù)據(jù)挖掘器與數(shù)據(jù)層API 20通信,從而,與數(shù)據(jù)存儲(chǔ)層通信。在所示的非限制性例證實(shí)施例中,挖掘器庫32包括返回往/來網(wǎng)頁的鏈接的鏈接挖掘器34,識(shí)別數(shù)據(jù)存儲(chǔ)庫18中的“信息垃圾”的信息垃圾過濾器36,識(shí)別數(shù)據(jù)存儲(chǔ)庫18中的色情網(wǎng)頁的色情內(nèi)容過濾器38,根據(jù)網(wǎng)頁中項(xiàng)目(term)的模式的出現(xiàn),對(duì)網(wǎng)頁分類的分類挖掘器42,識(shí)別web頁上的任意地理信息的地理空間挖掘器44,公司挖掘器46,返回具有預(yù)定分類類別的分類法挖掘器48,提供包含定義的正則表達(dá)式的網(wǎng)頁流的正則表達(dá)式(regex)挖掘器50。
“挖掘器”或“數(shù)據(jù)挖掘部件”意味著利用一組規(guī)則產(chǎn)生輸出,具體地說,產(chǎn)生能夠包含代表某一實(shí)體的特征的一個(gè)或多個(gè)關(guān)鍵字的輸出的分析引擎??蓡l(fā)式地確定這些規(guī)則,并且這些規(guī)則可包括基于統(tǒng)計(jì)的規(guī)則。舉例來說,“色情內(nèi)容過濾器”挖掘器38可利用圖像分析技術(shù),確定某一web頁是否包含色情內(nèi)容,并在網(wǎng)頁上附加指示“porn=y(tǒng)es”或“porn=no”的關(guān)鍵字和布爾關(guān)鍵字值。作為一個(gè)非限制性例子,色情內(nèi)容挖掘器可使用在美國專利No.6295559中陳述的原理?;蛘?,公司挖掘器46可利用單詞聯(lián)想規(guī)則,URL分析,或者其它方法,確定特定網(wǎng)頁是否是公司網(wǎng)頁,并向該網(wǎng)頁附加指示挖掘器的分析結(jié)果的關(guān)鍵字。另外,建立信息垃圾過濾器36的挖掘器可使用例如在IBM的美國專利No.6266692中陳述的原理,向Web頁或電子郵件附加指示它們是否是“信息垃圾”的關(guān)鍵字。此外,地理空間挖掘器44可根據(jù)得到與網(wǎng)頁的主題或作者相關(guān)的緯度和經(jīng)度范圍的規(guī)則,向Web頁附加代表這種信息的關(guān)鍵字。作為另一個(gè)非限制性例子,地理空間挖掘器可使用在IBM的美國專利No.6285996中陳述的原理。所有上面提及的專利作為參考包含于此。要認(rèn)識(shí)到在不影響本發(fā)明的范圍或操作的情況下,挖掘器的特定類型和每種挖掘器采用的特定規(guī)則可發(fā)生變化。
總之,數(shù)據(jù)挖掘器是具有特定輸入和輸出規(guī)范的模塊組件。它們可用任意語言編寫,并且可從例如發(fā)現(xiàn)關(guān)鍵詞的數(shù)行的簡單perl,變化到執(zhí)行復(fù)雜的分布式操作的數(shù)萬行代碼(或者更多)。較大的問題可被分成較小的塊,每個(gè)較小的塊易于由單個(gè)挖掘器或者挖掘器編寫器解決。所得到的中間結(jié)果易于查看,檢查和調(diào)試,也可獨(dú)立地引起其它挖掘器編寫器的興趣。這樣,挖掘器代表和面向?qū)ο笤O(shè)計(jì)等同的面向服務(wù)體系結(jié)構(gòu)。當(dāng)挖掘器開始時(shí),必須可用的數(shù)據(jù)(通常由下述關(guān)鍵字指示),和在成功的處理過程中,挖掘器將產(chǎn)生的數(shù)據(jù)(包括其它關(guān)鍵字)規(guī)定挖掘器。
具體地說,在一個(gè)優(yōu)選實(shí)施例中,根據(jù)由挖掘器規(guī)定的一個(gè)或多個(gè)相關(guān)性,挖掘器能夠使用來自系統(tǒng)管理的工作隊(duì)列的工作。例如,關(guān)心處理包含對(duì)某些人物或者某些地理位置的引用的網(wǎng)頁的挖掘器(“挖掘器A”)可記錄關(guān)于地理空間挖掘器44和人物挖掘器的相關(guān)性。挖掘器A的工作隊(duì)列隨后將被持續(xù)更新,以便包含由地理空間挖掘器和人物挖掘器,而還沒有由挖掘器A附到數(shù)據(jù)存儲(chǔ)庫的實(shí)體上的關(guān)鍵字指示的,已被地理空間挖掘器和人物挖掘器處理的實(shí)體。在處理這些實(shí)體之后,當(dāng)數(shù)據(jù)存儲(chǔ)庫是數(shù)據(jù)庫時(shí),通過利用現(xiàn)有的實(shí)體表格,挖掘器A可把它自己的關(guān)鍵字附到處理后的實(shí)體上,或者它可產(chǎn)生新的實(shí)體(當(dāng)數(shù)據(jù)存儲(chǔ)庫被實(shí)現(xiàn)成數(shù)據(jù)庫時(shí),具有對(duì)應(yīng)的表格),同時(shí)每個(gè)關(guān)鍵字代表實(shí)體的一個(gè)特征。抽取對(duì)特定產(chǎn)品,商標(biāo)名稱,人們,工業(yè)部門,藝術(shù)家等的引用的挖掘器按照這種方式工作。
另一方面,挖掘器可不使用來自隊(duì)列的工作,而是向下述描述的管理系統(tǒng)登記新鮮度要求,所述管理系統(tǒng)控制挖掘器必須多頻繁地運(yùn)行以及在什么環(huán)境中運(yùn)行。進(jìn)行每周集合計(jì)算的其它挖掘器可要求下面論述的管理系統(tǒng)啟動(dòng)挖掘器的一個(gè)或多個(gè)實(shí)例,以便再次通過將具有附著于其上的恰當(dāng)關(guān)鍵字的實(shí)體用做輸入,完成所得到的集合表或數(shù)據(jù)結(jié)構(gòu)的每周一次的建立。
挖掘器從而從數(shù)據(jù)存儲(chǔ)庫18讀取長期不斷的持久并且可靠的原始內(nèi)容流,以及其它挖掘器產(chǎn)生的處理數(shù)據(jù)。這些挖掘器,事實(shí)上系統(tǒng)10內(nèi)的許多挖掘器將使用并處理數(shù)據(jù)。上面討論的兩種數(shù)據(jù)存取模型包括對(duì)特定實(shí)體或一組實(shí)體的隨機(jī)存取,和對(duì)許多實(shí)體的流式存取。為了對(duì)數(shù)據(jù)存儲(chǔ)庫18進(jìn)行隨機(jī)存取,挖掘器簡單地利用UEID,請(qǐng)求所考慮的實(shí)體的相關(guān)部分。為了接收數(shù)據(jù)流,通過利用索引器26或者利用查詢處理器30,向數(shù)據(jù)存儲(chǔ)庫18請(qǐng)求數(shù)據(jù),啟動(dòng)枚舉。例如,在按照常規(guī)進(jìn)行查詢優(yōu)化,并作為回報(bào)產(chǎn)生數(shù)據(jù)流的情況下,具有更復(fù)雜數(shù)據(jù)要求的挖掘器可向查詢處理器30指定需要存取多個(gè)組件的復(fù)雜查詢。這種查詢可引起跨越多個(gè)表格,包括文本搜索的索引查尋,范圍查詢,地理查尋,和來自系統(tǒng)內(nèi)的許多不同來源的較小結(jié)果組的組合的數(shù)據(jù)庫結(jié)合。不論是來源于索引器26還是查詢處理器30,枚舉提供持久性,并且根據(jù)處理的本質(zhì),能夠串行地或者并行地被訪問。
挖掘器把他們的處理結(jié)果寫回到數(shù)據(jù)存儲(chǔ)庫18,以便其它挖掘器和最終用戶訪問。如上所述,為了把數(shù)據(jù)寫回存儲(chǔ)庫18供其它挖掘器訪問,挖掘器只需產(chǎn)生它希望附到該實(shí)體上的新的關(guān)鍵字和值,隨后執(zhí)行存儲(chǔ)寫入操作即可。
可在數(shù)據(jù)表示層52呈現(xiàn)由本發(fā)明的挖掘器提供的特定客戶信息請(qǐng)求的結(jié)果。結(jié)果可被打印,或者可按照音頻-視頻形式或所需的其它形式呈現(xiàn)。聚類管理子系統(tǒng)層54如下更充分說明的那樣管理上述各層。如果需要,客戶接口56可訪問數(shù)據(jù)層API 20和客戶數(shù)據(jù)庫58,以便輸入和響應(yīng)客戶信息請(qǐng)求。
根據(jù)優(yōu)選實(shí)施例,管理子系統(tǒng)層54調(diào)度、啟動(dòng)、監(jiān)視和記錄各個(gè)組件內(nèi)的操作。最終應(yīng)用程序從呈遞的表格,從數(shù)據(jù)庫18,或者從實(shí)時(shí)查詢處理挖掘器提取結(jié)果。
在優(yōu)選的非限制性實(shí)施例中,一大群計(jì)算機(jī)接待系統(tǒng)10和管理子系統(tǒng)層54。除了管理挖掘器之外,管理系統(tǒng)54檢測群集中的硬件和軟件故障,并以編程方式從故障恢復(fù),根據(jù)需要通知系統(tǒng)管理員。管理子系統(tǒng)層54還向每個(gè)軟件組件提供諸如再定位,負(fù)載均衡和調(diào)度之類的功能。
所有系統(tǒng)10事件被收集到單個(gè)信息服務(wù)器中,所述信息服務(wù)器保持來自應(yīng)用程序和基礎(chǔ)結(jié)構(gòu)組件的狀態(tài),統(tǒng)計(jì)信息,登錄和錯(cuò)誤代碼。事件產(chǎn)生自各種來源,包括群集中的軟件組件使用的錯(cuò)誤類別,與數(shù)據(jù)存儲(chǔ)庫18相關(guān)的DB2事件和登錄監(jiān)視器,系統(tǒng)和網(wǎng)絡(luò)監(jiān)視組件,和所謂的“Nanny”代理,所述“Nanny”代理是管理子系統(tǒng)層54的一部分,并且運(yùn)行于群集的各個(gè)計(jì)算機(jī)之上。
優(yōu)選的“Nanny”代理啟動(dòng)、停止和監(jiān)視進(jìn)程,并跟蹤它們各自計(jì)算機(jī)上的計(jì)算機(jī)資源。它們進(jìn)行和/或監(jiān)視“ping”,磁盤利用,存儲(chǔ)器利用,處理器利用,內(nèi)核資源利用(進(jìn)程,套接字等),和包括啟動(dòng),停止,以名字方式殺死進(jìn)程(killall)的進(jìn)程控制?!癗anny”代理還從運(yùn)行于它們各自計(jì)算機(jī)之上的單個(gè)挖掘器接收狀態(tài),包括登錄消息,錯(cuò)誤報(bào)告,統(tǒng)計(jì)信息,等待文檔的數(shù)目,每秒的處理文檔的數(shù)目,凈文檔流速,用每秒的字節(jié)或?qū)嶓w表示的處理速率,以及其它挖掘器專用狀態(tài)報(bào)告。
圖2表示了上述系統(tǒng)10操作的整體邏輯。開始于方框60,爬行器12搜尋Web 14,把數(shù)據(jù)添加到數(shù)據(jù)存儲(chǔ)庫18中。如果需要,在方框62,借助數(shù)據(jù)收集器22,可向數(shù)據(jù)存儲(chǔ)庫18添加來自數(shù)據(jù)庫24的數(shù)據(jù)。
一旦數(shù)據(jù)存儲(chǔ)庫18包括數(shù)據(jù),邏輯就進(jìn)入方框64,在方框64,至少一些挖掘器(它們可被看作“低級(jí)”挖掘器)根據(jù)上述公開內(nèi)容訪問數(shù)據(jù)并處理該數(shù)據(jù)。低級(jí)挖掘器把結(jié)果寫回?cái)?shù)據(jù)存儲(chǔ)庫18。例如,諸如SPAM過濾器36和色情內(nèi)容過濾器38之類的過濾挖掘器可處理數(shù)據(jù)存儲(chǔ)庫18中的所有Web頁,并把指示每個(gè)站點(diǎn)是否是SPAM或色情站點(diǎn)的相應(yīng)關(guān)鍵字寫回對(duì)應(yīng)的實(shí)體中。此外,可在每個(gè)網(wǎng)頁上調(diào)用去標(biāo)記(detag)挖掘器,從而通過除去超文本置標(biāo)語言(html)置標(biāo),只留下原始文本,來處理網(wǎng)頁內(nèi)容,隨后把“去標(biāo)記”關(guān)鍵字附到每個(gè)對(duì)應(yīng)實(shí)體上。
移動(dòng)到方框66,客戶信息請(qǐng)求可被接收。在方框68,可以寫入另外的低級(jí)挖掘器作為響應(yīng),或者如果需要并且未被寫入,那么可產(chǎn)生高級(jí)挖掘器。高級(jí)挖掘器可被看作規(guī)定關(guān)于其它挖掘器的輸出的相關(guān)性,即,需要已用低級(jí)挖掘器輸出的關(guān)鍵字標(biāo)注的用于處理的實(shí)體的挖掘器。
高級(jí)挖掘器的一個(gè)例子可以是應(yīng)答查詢“西北太平洋地區(qū)中,我們的商業(yè)客戶在品牌實(shí)力和價(jià)值方面,對(duì)競爭對(duì)手的保健產(chǎn)品有什么看法?”的挖掘器。這樣的挖掘器可指定它希望只接收來自西北太平洋地區(qū)的網(wǎng)頁(由地理空間挖掘器附加到實(shí)體上的地理空間關(guān)鍵字指示),并且只有當(dāng)在該實(shí)體中表示競爭對(duì)手的名稱時(shí)(由正確名稱挖掘器附加到該實(shí)體上的關(guān)鍵字指示)才接收??梢约俣ㄔS多這樣的相關(guān)性,要明白可以指定這樣挖掘器的相關(guān)性的專家根據(jù)他或她的專業(yè)知識(shí),使用試探法,而不必知道編寫地理空間挖掘器的專家如何得出他或她的結(jié)論。在方框70,結(jié)果被提供給客戶,并且基于每個(gè)請(qǐng)求或者基于預(yù)約,給客戶開帳單。
圖3和4圖解說明例如當(dāng)數(shù)據(jù)存儲(chǔ)庫由諸如DB2之類的數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)時(shí),可以使用的水平和垂直表的結(jié)構(gòu)。圖3中表示了水平表72,其中每行74代表一個(gè)實(shí)體。每行具有一個(gè)UEID列76,一個(gè)時(shí)間戳記列78(如果需要),和一個(gè)以上的關(guān)鍵字列80。相反,圖4中所示的垂直表82包括一個(gè)以上的行84,每行包括單個(gè)關(guān)鍵字列86,UEID列88,指示關(guān)鍵字的類型的關(guān)鍵字代碼列90,和指示關(guān)鍵字的值,例如布爾值,范圍值等的關(guān)鍵字值列92。如果需要可包括時(shí)間戳記列94,指示在該表格中產(chǎn)生相關(guān)條目的時(shí)間。
根據(jù)上述詳述,要認(rèn)識(shí)到借助數(shù)據(jù)庫實(shí)現(xiàn)中的表格72、82,數(shù)據(jù)存儲(chǔ)庫18抽取實(shí)際數(shù)據(jù)的布局,從而可判斷對(duì)于特定的實(shí)體,使用哪種表格,以便有助于預(yù)期對(duì)該實(shí)體來說典型的存取模式的性能。優(yōu)選的數(shù)據(jù)存儲(chǔ)庫18還通過自動(dòng)使用VARCHAR或BLOB保存長于最大行長度的值,來抽取DB2的關(guān)于行長度的限制。提供API,以便幫助程序設(shè)計(jì)員直接訪問DB2數(shù)據(jù)庫,從而寫入與數(shù)據(jù)的物理布局無關(guān)的代碼。
例如,爬行器12寫入CrawlContent關(guān)鍵字,CrawlHeader關(guān)鍵字,和許多提取的元數(shù)據(jù)關(guān)鍵字,例如URL,讀取等待時(shí)間,改變網(wǎng)頁的最后日期,服務(wù)器,HTTP返回代碼等。在實(shí)現(xiàn)成數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)庫18內(nèi),該信息都被寫入單個(gè)水平表中,同時(shí)每個(gè)爬行器關(guān)鍵字為一列。該信息只由爬行器12寫入,但是可由得到許可的任意挖掘器讀取。需要網(wǎng)頁內(nèi)容的挖掘器只需要求CrawlContent關(guān)鍵字的值,并且數(shù)據(jù)存儲(chǔ)庫18映射到恰當(dāng)?shù)谋砀瘛?br>
為了簡化該計(jì)算,如果需要,數(shù)據(jù)存儲(chǔ)庫18可提供數(shù)據(jù)字典,其目的是提供和關(guān)鍵字到關(guān)系數(shù)據(jù)庫內(nèi)的實(shí)際位置的映射相關(guān)的信息。另外,它提供輔助信息,例如關(guān)鍵字的類型和所有者。寫入多個(gè)關(guān)鍵字的挖掘器可把這些關(guān)鍵字寫入特定的水平表中,從而可在單一的行更新操作中寫入許多關(guān)鍵字。
如上所述,包括爬行器12在內(nèi)的許多挖掘器很自然地在網(wǎng)頁級(jí)工作,產(chǎn)生并使用每頁的信息。但是,其它挖掘器也可在除原始網(wǎng)頁之外的其它實(shí)體上工作。例如,諸如基于鏈接的信息垃圾過濾器36之類的一些挖掘器在整個(gè)web站點(diǎn)上工作,確定整個(gè)站點(diǎn)是否是信息垃圾。其它挖掘器可作用于短語,或者作用于正確的名稱,或者公司名稱,或者地點(diǎn),飯店,雇員等。每種這樣的類別代表一個(gè)獨(dú)立的實(shí)體,并且需要數(shù)據(jù)存儲(chǔ)庫18內(nèi),它自己的一組水平表和垂直表(或者其它數(shù)據(jù)存儲(chǔ)結(jié)構(gòu))。因此,按照爬行器12寫入數(shù)據(jù)庫實(shí)現(xiàn)中的網(wǎng)頁實(shí)體內(nèi)的水平表的相同方式,公司挖掘器46可填充公司的水平表。希望把關(guān)鍵字對(duì)附于公司上的其它挖掘器可訪問公司挖掘器46附加到實(shí)體上的關(guān)鍵字,隨后把其它關(guān)鍵字寫入公司實(shí)體的其它數(shù)據(jù)結(jié)構(gòu)中。
圖5表示當(dāng)在方框96,web頁從爬行器12到達(dá)時(shí),可遵循的具體邏輯流程。在方框98,可調(diào)用去標(biāo)記挖掘器,通過除去html置標(biāo),只留下原始文本,并向?qū)嶓w附加“去標(biāo)記”關(guān)鍵字,在方框100處理網(wǎng)頁。
進(jìn)入方框102,通過使系統(tǒng)管理器54根據(jù)去標(biāo)記關(guān)鍵字,把該實(shí)體傳送給其它挖掘器,所述其它挖掘器能夠根據(jù)上述原理接收該實(shí)體。在方框104,其它挖掘器處理成做為該實(shí)體的基礎(chǔ)的數(shù)據(jù),并且當(dāng)數(shù)據(jù)存儲(chǔ)庫被實(shí)現(xiàn)成數(shù)據(jù)庫時(shí),可把它們自己的關(guān)鍵字附加到表示實(shí)體的水平表和表示關(guān)鍵字的相關(guān)垂直表中,該實(shí)體的數(shù)據(jù)結(jié)構(gòu)條目中。另外,一些挖掘器可從例如網(wǎng)頁實(shí)體提取信息,例如公司名稱,并產(chǎn)生表示這種實(shí)體,例如公司實(shí)體的另外的實(shí)體數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)(例如文件或表格)。
在初始挖掘器處理之后,邏輯可進(jìn)入判定菱形框106,確定是否另外的挖掘器,例如第n個(gè)挖掘器已請(qǐng)求具有預(yù)定關(guān)鍵字的實(shí)體。如果第n個(gè)挖掘器作為輸入所需的全部關(guān)鍵字存在于某一實(shí)體中,那么在方框108,通過把該實(shí)體放置到該挖掘器的工作隊(duì)列中,向第n個(gè)挖掘器提供該實(shí)體。隨后在方框110,通過訪問其工作隊(duì)列以便處理該實(shí)體,和/或處理該實(shí)體的基礎(chǔ)數(shù)據(jù),第n個(gè)挖掘器訪問該實(shí)體。在方框112,第n個(gè)挖掘器輸出它自己的關(guān)鍵字,并恰當(dāng)?shù)匕堰@些關(guān)鍵字輸入實(shí)體數(shù)據(jù)結(jié)構(gòu)中,從而使關(guān)鍵字與實(shí)體相關(guān)聯(lián)。隨后,在方框114,客戶的挖掘器可恰當(dāng)?shù)卣{(diào)用其它挖掘器和/或訪問實(shí)體,從而產(chǎn)生包含客戶所尋找信息的數(shù)據(jù)庫。
這里描述的系統(tǒng)10可用于許多特定的客戶應(yīng)用。一種這樣的應(yīng)用是“操作鏈接”/“下鉆注釋”(drill note)應(yīng)用,其中文檔被送入系統(tǒng)中,系統(tǒng)挖掘器根據(jù)規(guī)則,識(shí)別文檔中的重要“實(shí)體”(例如,人,地方,事件)。系統(tǒng)10中的編輯挖掘器隨后編輯關(guān)于每個(gè)這些實(shí)體的檔案或者其它形式的信息集合。隨后使檔案(或等同物)與原始文檔中的實(shí)體鏈接。
檔案或者等同物可以是實(shí)體的微型門戶,例如,它看起來類似特定于該實(shí)體的Yahoo7-型目錄。因此,如果實(shí)體是人物,那么可具有關(guān)于該人物的子類別,所述子類別由與該人相關(guān)的地址,與該人相關(guān)的其它人,與該人相關(guān)的地點(diǎn),與該人相關(guān)的行業(yè),與該人相關(guān)的出版物等組成。最好根據(jù)可調(diào)傾向功能,或者可試探確定的其它規(guī)則,由編輯挖掘器確定選擇的將被“操作鏈接的”實(shí)體。
作為可如何使用系統(tǒng)10的另一非限制性例子,“Legal LeadsFinder and Builder”應(yīng)用可包括上述“操作鏈接/下鉆注釋”作為一個(gè)組件,另外尋找“實(shí)體”之間的可能連接,其中實(shí)體包含在數(shù)據(jù)存儲(chǔ)庫18中,但是至少一些所尋找的連接元素未包含于其中。例如,考慮其中John Doe和Jane Smith(人物實(shí)體)都列舉在人物實(shí)體數(shù)據(jù)結(jié)構(gòu)中,但是數(shù)據(jù)存儲(chǔ)庫18中的數(shù)據(jù)不包含他們之間的任意明顯關(guān)系的訴訟情況(litigation case)。Legal Leads Finder and Builder挖掘器根據(jù)一組規(guī)則,把這兩個(gè)實(shí)體識(shí)別成重要實(shí)體,隨后確定是否存在所述兩個(gè)人物實(shí)體可能通過其相關(guān)的其它實(shí)體。例如,可能這兩個(gè)人都在特定公司或公益機(jī)構(gòu)的董事會(huì)中;他們一起發(fā)表了一篇論文;作為某類交易的同事或伙伴,在新聞中提到了他們;等等。在這些情況下,鏈接實(shí)體(例如,John和Jane都是其董事會(huì)成員的公司;他們一起發(fā)表的論文)可被看作“橋接實(shí)體”,并被包括在透露(discovery)請(qǐng)求中。
從而,訴訟的透露階段可被擴(kuò)展,以便不僅要求直接與某些主題,人物或者事件相關(guān)的文檔,而且還查找外部數(shù)據(jù)源內(nèi),與“橋接實(shí)體”相關(guān)的文檔。
作為可如何使用系統(tǒng)10的另一非限制性例子,可實(shí)現(xiàn)競爭產(chǎn)品營銷應(yīng)用。和一組產(chǎn)品相關(guān)的信息可被送入系統(tǒng)10中,并構(gòu)成挖掘器,以便明確地根據(jù)記載的語境,識(shí)別產(chǎn)品的記載并對(duì)其分類。例如,可把作為清潔劑產(chǎn)品的Tide7和自然現(xiàn)象潮汐區(qū)分開。另外,最好使用統(tǒng)計(jì)手段,根據(jù)一組先前分類/剖視的記載(classified/profiledmention),分類/剖視某一記載的分類/剖視器挖掘器被用于對(duì)記載的語境分類。此外,地理挖掘器可被用于確定與其中出現(xiàn)所述記載的來源相關(guān)的恰當(dāng)?shù)乩磉B接。隨后可使該應(yīng)用提供他們的某一批產(chǎn)品正在接收的“ink”或“buzz”的細(xì)分量度,并比較該“ink”或“buzz”和對(duì)應(yīng)于競爭產(chǎn)品的“ink”或“buzz”。可用代表“ink”或“buzz”的量值的不同顏色或亮度級(jí),在圖上表示該信息。也可隨著時(shí)間跟蹤該信息,有助于識(shí)別值得注意的積極或消極趨勢。作為另一特征,表示與某一產(chǎn)品相關(guān)的廣告開銷或其它營銷活動(dòng)的,以地理和人口統(tǒng)計(jì)方式分段的數(shù)據(jù)可被送入系統(tǒng)中,挖掘器能夠?qū)@樣的活動(dòng)相對(duì)于“ink”或“buzz”的前向相關(guān)性進(jìn)行測試,從而提供營銷活動(dòng)的效果的一些量度。
雖然這里詳細(xì)表示和說明的用于基于知識(shí)的數(shù)據(jù)挖掘系統(tǒng)的數(shù)據(jù)存儲(chǔ)庫完全能夠獲得本發(fā)明的上述目的,不過顯然它是本發(fā)明當(dāng)前的優(yōu)選實(shí)施例,從而代表本發(fā)明廣泛預(yù)期的主題,本發(fā)明的范圍完全包含對(duì)本領(lǐng)域的技術(shù)人員來說顯而易見的其它實(shí)施例,因此,本發(fā)明的范圍只受附加權(quán)利要求限定,其中除非明確指出,否則對(duì)部件的單數(shù)引用并不意味著“僅此一個(gè)”,而是意味著“一個(gè)或一個(gè)以上”。本領(lǐng)域的普通技術(shù)人員已知或稍后已知的上述優(yōu)選實(shí)施例的部件的所有結(jié)構(gòu)和功能等同物明確地作為參考包含于此,并且意圖被本權(quán)利要求包含。此外,設(shè)備或方法不必解決本發(fā)明試圖解決的每個(gè)問題,因?yàn)樗鼘⒂杀緳?quán)利要求包含。此外,不管在權(quán)利要求中是否明確敘述了本公開內(nèi)容中的部件、組件或方法步驟,這些部件、組件或方法步驟都不打算專用于公眾領(lǐng)域。
權(quán)利要求
1.一種系統(tǒng),包括包含實(shí)體的至少一個(gè)數(shù)據(jù)存儲(chǔ)庫;與數(shù)據(jù)存儲(chǔ)庫通信并利用第一組規(guī)則產(chǎn)生輸出的至少一個(gè)低級(jí)分析引擎;和接收低級(jí)分析引擎的輸出并利用第二組規(guī)則產(chǎn)生輸出的至少一個(gè)高級(jí)分析引擎,其中所述輸出與數(shù)據(jù)存儲(chǔ)庫中的實(shí)體相關(guān)。
2.按照權(quán)利要求1所述的系統(tǒng),其中數(shù)據(jù)存儲(chǔ)庫包括垂直表和水平表,利用輸出之一輸入垂直表,利用實(shí)體標(biāo)識(shí)輸入水平表。
3.按照權(quán)利要求1所述的系統(tǒng),其中所述輸出是代表相關(guān)實(shí)體的相應(yīng)特征的關(guān)鍵字。
4.按照權(quán)利要求1所述的系統(tǒng),其中數(shù)據(jù)存儲(chǔ)庫是關(guān)系數(shù)據(jù)庫系統(tǒng)。
5.按照權(quán)利要求1所述的系統(tǒng),其中數(shù)據(jù)存儲(chǔ)庫是文件系統(tǒng)。
6.按照權(quán)利要求1所述的系統(tǒng),還包括與數(shù)據(jù)存儲(chǔ)庫相關(guān)的索引器。
7.按照權(quán)利要求6所述的系統(tǒng),還包括與索引器和數(shù)據(jù)存儲(chǔ)庫相關(guān)的半導(dǎo)體實(shí)現(xiàn)的快速告訴緩存。
8.按照權(quán)利要求7所述的系統(tǒng),還包括訪問告訴緩存,索引器和數(shù)據(jù)存儲(chǔ)庫中的一個(gè)或多個(gè),以便執(zhí)行來自至少一個(gè)分析引擎的查詢的查詢處理器。
9.按照權(quán)利要求8所述的系統(tǒng),還包括與至少一個(gè)分析引擎相關(guān)的至少一個(gè)工作隊(duì)列。
10.按照權(quán)利要求1所述的系統(tǒng),其中所述實(shí)體標(biāo)識(shí)對(duì)對(duì)應(yīng)的實(shí)體標(biāo)識(shí)和實(shí)體類型編碼。
11.按照權(quán)利要求6所述的系統(tǒng),其中索引器包括在數(shù)據(jù)存儲(chǔ)庫中發(fā)現(xiàn)的關(guān)鍵字和關(guān)鍵字值的索引。
12.按照權(quán)利要求11所述的系統(tǒng),其中索引器包含保存對(duì)“關(guān)鍵字k具有值v?”形式的查詢的“是”或“否”值的布爾索引。
13.按照權(quán)利要求11所述的系統(tǒng),其中索引器包含保存關(guān)鍵字值范圍的范圍索引。
14.按照權(quán)利要求11所述的系統(tǒng),其中索引器包含文本索引。
15.按照權(quán)利要求6所述的系統(tǒng),其中索引器包括索引,數(shù)據(jù)存儲(chǔ)庫包括不指示特定名稱或文本在實(shí)體中何處出現(xiàn),而只指示實(shí)體具有特定特征的表格。
16.按照權(quán)利要求6所述的系統(tǒng),其中索引器是給web文檔編制索引,并向文檔提供關(guān)鍵字搜索應(yīng)用編程接口(API)的倒排文件文本索引器的一般化。
17.按照權(quán)利要求6所述的系統(tǒng),其中索引器保持特定實(shí)體的定義關(guān)鍵字,以便允許布爾查詢。
18.按照權(quán)利要求6所述的系統(tǒng),其中索引器獲得圖形數(shù)據(jù),以便支持入鏈接和出鏈接查詢。
19.按照權(quán)利要求6所述的系統(tǒng),其中使權(quán)標(biāo)化和在索引器中進(jìn)行索引分離開。
20.一種保存數(shù)據(jù),從而支持基于知識(shí)的數(shù)據(jù)挖掘系統(tǒng)的方法,包括把實(shí)體保存在至少一個(gè)數(shù)據(jù)存儲(chǔ)庫中;利用至少一個(gè)第一分析引擎,與數(shù)據(jù)存儲(chǔ)庫通信;利用與第一分析引擎相關(guān)的第一組規(guī)則產(chǎn)生輸出;把輸出發(fā)送給至少一個(gè)第二分析引擎;利用與第二引擎相關(guān)的第二組規(guī)則產(chǎn)生輸出;和使所述輸出與實(shí)體相關(guān)。
21.一種數(shù)據(jù)挖掘系統(tǒng),包括把實(shí)體保存到至少一個(gè)數(shù)據(jù)存儲(chǔ)庫的水平表和垂直表中的裝置;利用至少一個(gè)第一分析引擎,與數(shù)據(jù)存儲(chǔ)庫通信的裝置;利用與第一分析引擎相關(guān)的第一組規(guī)則產(chǎn)生輸出的裝置;把輸出發(fā)送給至少一個(gè)第二分析引擎的裝置;利用與第二引擎相關(guān)的第二組規(guī)則產(chǎn)生輸出的裝置;和使所述輸出與實(shí)體相關(guān)的裝置。
全文摘要
在數(shù)據(jù)挖掘系統(tǒng)中,利用例如Web爬行器,把數(shù)據(jù)收集到數(shù)據(jù)存儲(chǔ)庫中。數(shù)據(jù)被分類成實(shí)體,并被保存到基本垂直表和水平表中,所述基本垂直表和水平表分別表示可以是索引對(duì)象的挖掘器輸出和實(shí)體。數(shù)據(jù)挖掘器使用規(guī)則處理實(shí)體,并把代表由包含在挖掘器中的規(guī)則得到的實(shí)體特征的實(shí)體的相應(yīng)關(guān)鍵字附到實(shí)體上,所述關(guān)鍵字與表格中的實(shí)體相關(guān)。借助這些關(guān)鍵字,識(shí)別由數(shù)據(jù)挖掘器的不同專家級(jí)程序設(shè)計(jì)員定義的實(shí)體的特征,以便供響應(yīng)來自客戶的復(fù)雜數(shù)據(jù)請(qǐng)求之用。
文檔編號(hào)G06F19/00GK1703696SQ03806306
公開日2005年11月30日 申請(qǐng)日期2003年4月28日 優(yōu)先權(quán)日2002年5月8日
發(fā)明者馬修·德尼蘇克, 丹尼爾·弗雷德里克·格魯爾, 凱文·斯諾·邁克科雷, 約爾格·梅耶爾, 斯里德哈爾·拉加高帕蘭, 安德魯·湯姆金斯, 賈森·揚(yáng)·齊恩 申請(qǐng)人:國際商業(yè)機(jī)器公司