亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

提供信息管理的制作方法

文檔序號:6352473閱讀:230來源:國知局
專利名稱:提供信息管理的制作方法
提供信息管理
背景技術(shù)
企業(yè)利用商業(yè)智能(BI)技術(shù)來做出戰(zhàn)略和戰(zhàn)術(shù)決策。在很多情況下,決策環(huán)可能持續(xù)幾周的時間周期,諸如在活動管理方面,或者可能持續(xù)數(shù)月的時間周期,諸如在提高客戶滿意度方面。然而,競爭壓力迫使公司要做出更快的反應(yīng),以快速的改變營業(yè)狀況和客戶需求。因此,越來越渴望利用商業(yè)智能來協(xié)助每天(在一些情況下近乎實時)獲得并優(yōu)化經(jīng)營活動。這種類型的商業(yè)智能被稱作操作型商業(yè)智能。在傳統(tǒng)的商業(yè)智能體系中,利用數(shù)據(jù)提取、轉(zhuǎn)換和裝載的應(yīng)用程序來從包括結(jié)構(gòu)化數(shù)據(jù)源和非結(jié)構(gòu)化數(shù)據(jù)源的多種數(shù)據(jù)源中收集企業(yè)的交易數(shù)據(jù)。處理所收集的數(shù)據(jù),例如,從非結(jié)構(gòu)化數(shù)據(jù)中提取語義,并且將該數(shù)據(jù)作為結(jié)構(gòu)化數(shù)據(jù)載入數(shù)據(jù)倉庫中。用戶然后可以對數(shù)據(jù)倉庫運行查詢,產(chǎn)生來自數(shù)據(jù)倉庫的報告等。將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)集成到公用數(shù)據(jù)存儲庫中的處理能夠掩蓋結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù)質(zhì)量差異。查詢這種數(shù)據(jù)將產(chǎn)生質(zhì)量幾乎為最低標(biāo)準的結(jié)果,進而破壞通常與結(jié)構(gòu)化數(shù)據(jù)相關(guān)的高數(shù)據(jù)質(zhì)量。另外,從非結(jié)構(gòu)化數(shù)據(jù)源中提取語義的過程可能是不完整的,并且其可能使結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的聯(lián)合運算失真而導(dǎo)致錯誤結(jié)果。


在以下的具體描述中并結(jié)合附圖描述某些示例性實施例,其中:圖1是根據(jù)本發(fā)明實施例的被配置為集成來自不同數(shù)據(jù)質(zhì)量的數(shù)據(jù)源的數(shù)據(jù)的系統(tǒng)的框圖。圖2是根據(jù)本發(fā)明實施例的用于在處理不同數(shù)據(jù)源之間的數(shù)據(jù)質(zhì)量差異的同時提供實時商業(yè)智能的圖1的更詳細框圖。圖3是根據(jù)本發(fā)明實施例的用于集成來自不同數(shù)據(jù)質(zhì)量的多個數(shù)據(jù)源的數(shù)據(jù)的方法的處理流程圖。圖4是根據(jù)本發(fā)明實施例的示出存儲用于集成來自不同數(shù)據(jù)質(zhì)量的數(shù)據(jù)源的數(shù)據(jù)的代碼的非臨時性計算機可讀介質(zhì)的框圖。
具體實施例方式本發(fā)明各實施例提供來自不同數(shù)據(jù)質(zhì)量的數(shù)據(jù)源的數(shù)據(jù)的集成。根據(jù)各實施例,提供一種對所集成的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)執(zhí)行實時信息管理的新模式。通過將準確性概率與從不同數(shù)據(jù)源提取的事實相關(guān)聯(lián)來處理數(shù)據(jù)質(zhì)量。今天,大部分自然語言處理(NLP)引擎是以規(guī)則和語法為基礎(chǔ)的。然而,存在新一代概率的或隨機的NLP引擎(pNLP),其可以基于事實的準確性概率從非結(jié)構(gòu)化文本中提取事實。PNLP引擎可以確定與文件的文字相關(guān)的一個或多個可能的含義,將不同的概率與每個可能的含義相關(guān)聯(lián),并且返回具有最高準確性概率的含義。事實的準確性指的是從文件中提取的事實是否正確地傳達了該文件的作者所意指的含義并且是否會被該文件的讀者所理解。換句話說,具有高概率度的事實由于例如就將數(shù)據(jù)輸入文件的人而言的人為失誤而實際上可能仍然是錯誤的。然而,該事實在其向文件的讀者傳達與之相關(guān)的含義的意義上來說卻是“準確的”。傳統(tǒng)的PNLP計算所給文字的可能含義的概率,選擇具有最高概率的含義,并且返回具有最高概率的含義作為事實。根據(jù)各實施例,修改PNLP引擎,以將文字的所有不同含義與它們的對應(yīng)概率一起導(dǎo)出??梢砸栽诒疚闹斜环Q為“元組”的數(shù)據(jù)格式來表示PNLP引擎所返回的每個事實。每個元組包括事實是準確的對應(yīng)概率。從結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生的元組可以被組合到集成數(shù)據(jù)集中,然后可以利用其中客戶可以指定他們答案的預(yù)期準確度的信息模型來對元組進行查詢。信息模型可以將可能的不同答案與相關(guān)聯(lián)的準確性概率一起返回。在這個模型中,來自低質(zhì)量數(shù)據(jù)和高質(zhì)量數(shù)據(jù)的混合數(shù)據(jù)將不會影響答案質(zhì)量。即可以從結(jié)構(gòu)化數(shù)據(jù)源又可以從非結(jié)構(gòu)化數(shù)據(jù)源中收集信息。從結(jié)構(gòu)化數(shù)據(jù)源收集的信息可以與信息是準確的高概率度(例如100%)相關(guān)聯(lián)。從非結(jié)構(gòu)化數(shù)據(jù)源收集的信息的數(shù)據(jù)質(zhì)量通常容易變化。因此,不同的概率可以與從不同的非結(jié)構(gòu)化數(shù)據(jù)源返回的不同的元組相關(guān)聯(lián)。這些元組和它們的關(guān)聯(lián)概率可以被存儲到公用數(shù)據(jù)存儲區(qū)。利用概率作為結(jié)果的屬性的查詢語言可以應(yīng)用于該公用數(shù)據(jù)存儲區(qū)。另外,模糊推理也可以應(yīng)用于該公用數(shù)據(jù)存儲區(qū),以獲得若干個可能的答案,答案中的每一個具有關(guān)聯(lián)的準確性概率。根據(jù)各實施例的信息模型提供比現(xiàn)有信息模型更多的數(shù)據(jù),這是因為其揭示了來自同一數(shù)據(jù)集的更多信息。在各實施例中,利用信息管理系統(tǒng)來提供實時的操作型商業(yè)智能。該信息管理系統(tǒng)使能夠以并行方式直接從多個操作型數(shù)據(jù)源收集具體數(shù)據(jù),作為對諸如查詢或報告請求等的被請求的商業(yè)智能客戶端操作的響應(yīng)。通過這種方法,整個企業(yè)網(wǎng)絡(luò)上的數(shù)據(jù)可以直接從這些數(shù)據(jù)的數(shù)據(jù)源實時訪問,而不是僅僅依靠已經(jīng)被事先存儲到數(shù)據(jù)倉庫的數(shù)據(jù)。圖1是根據(jù)本發(fā)明各實施例的被配置為提供一種新的用于實時操作型商業(yè)智能的信息模型的系統(tǒng)的框圖。該系統(tǒng)大體上以附圖標(biāo)記100來表示。如圖1所示,系統(tǒng)100可以包括計算設(shè)備102,計算設(shè)備102可以被視為運行諸如Linux或Windows的傳統(tǒng)操作系統(tǒng)的傳統(tǒng)服務(wù)器集群。計算設(shè)備102可以包括一個或多個處理部件(PE) 104。例如,除其它配置之外,計算設(shè)備102還可以包括中央處理單元(CPU)或者對稱式多處理器(SMP)集群。處理部件104運行用于從企業(yè)中的不同數(shù)據(jù)源收集相關(guān)數(shù)據(jù)的專門應(yīng)用軟件。在實施例中,計算設(shè)備102是通用計算設(shè)備,例如一個或多個處理部件104集群。計算設(shè)備102能夠可操作地聯(lián)接到企業(yè)網(wǎng)絡(luò)108,企業(yè)網(wǎng)絡(luò)108可以是局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)或者另一個網(wǎng)絡(luò)結(jié)構(gòu)。計算設(shè)備102通過企業(yè)網(wǎng)絡(luò)108可以訪問多種操作型數(shù)據(jù)源110,多種操作型數(shù)據(jù)源110包括結(jié)構(gòu)化數(shù)據(jù)源和非結(jié)構(gòu)化數(shù)據(jù)源,諸如數(shù)據(jù)倉庫112、數(shù)據(jù)集市、客戶關(guān)系管理(CRM)系統(tǒng)118、企業(yè)資源計劃(ERP)系統(tǒng)114和文件存儲庫120等。數(shù)據(jù)集市是被配置為支持企業(yè)中部門的商業(yè)需求的數(shù)據(jù)存儲系統(tǒng),諸如數(shù)據(jù)庫。如在本文中所使用的,術(shù)語“結(jié)構(gòu)化數(shù)據(jù)”指代其中所存儲的數(shù)據(jù)的語義被明確定義的數(shù)據(jù)。例如,結(jié)構(gòu)化數(shù)據(jù)源包括關(guān)系數(shù)據(jù)庫和XML數(shù)據(jù)庫等。術(shù)語“非結(jié)構(gòu)化數(shù)據(jù)”用于指代其中數(shù)據(jù)的語義未被明確定義的數(shù)據(jù)源。例如,非結(jié)構(gòu)化數(shù)據(jù)可以指代純文本文件、掃描文件、ADOBE 可攜式文檔文件(PDF)、Microsoft Word文件。術(shù)語“非結(jié)構(gòu)化數(shù)據(jù)”在本文中還指代其中數(shù)據(jù)的語義(例如使用元數(shù)據(jù)標(biāo)簽)被編碼的半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化文件的示例包括可擴展標(biāo)記語言(XML)文檔和超文本標(biāo)記語言(HTML)文檔等等。在各實施例中,系統(tǒng)100包括用于管理內(nèi)部資源和外部資源的企業(yè)資源計劃(ERP)系統(tǒng)114,內(nèi)部資源和外部資源例如為財政資源、人力資源、材料、器材以及其他有形和無形資產(chǎn)。企業(yè)資源計劃系統(tǒng)114可以用于提供企業(yè)未來商業(yè)計劃(諸如計劃的產(chǎn)品、月艮務(wù)和收購等)的策略,并且便于信息在整個企業(yè)流動以及協(xié)調(diào)企業(yè)的商業(yè)操作。系統(tǒng)100可以包括用于管理提供給終端客戶的產(chǎn)品和服務(wù)的產(chǎn)量的供應(yīng)鏈管理(SCM)系統(tǒng)116。供應(yīng)鏈管理系統(tǒng)116可以用于跟蹤和管理原材料、在制品存貨和成品從供應(yīng)商到客戶的移動和存儲。系統(tǒng)100還可以包括用于跟蹤和管理與企業(yè)的客戶、商業(yè)客戶端和銷售前景的關(guān)系的客戶關(guān)系管理(CRM)系統(tǒng)118。例如,客戶關(guān)系管理系統(tǒng)118可以用于保持跟蹤銷售活動、市場活動、客戶服務(wù)互動、客戶控訴和技術(shù)支持等。在各實施例中,系統(tǒng)100包括用于存儲重要企業(yè)文件的一個或多個文件存儲庫120,重要企業(yè)文件例如為員工工作產(chǎn)品、技術(shù)論文、信件、合同、發(fā)票和法律文件等。存儲到該文件存儲庫的文件可以包括ppt演不、電子郵件、PDF> Microsoft Word文件、電子表格和掃描文件等。本領(lǐng)域普通技術(shù)人員將領(lǐng)會,系統(tǒng)100的結(jié)構(gòu)僅僅是可以在本發(fā)明實施例中實現(xiàn)的系統(tǒng)的一個示例。基于特定系統(tǒng)的設(shè)計考慮,本領(lǐng)域普通技術(shù)人員會能容易地定義具體設(shè)備、系統(tǒng)和操作型數(shù)據(jù)源110。計算設(shè)備102還包括信息管理系統(tǒng)122,信息管理系統(tǒng)122被配置為執(zhí)行針對操作型數(shù)據(jù)源112的各種數(shù)據(jù)收集操作。可以以特定數(shù)據(jù)源特有的數(shù)據(jù)格式從每個操作型數(shù)據(jù)源112收集數(shù)據(jù)??梢酝ㄟ^一個或多個pNLP引擎執(zhí)行從非結(jié)構(gòu)化數(shù)據(jù)源收集數(shù)據(jù)的過程,該一個或多個PNLP引擎從非結(jié)構(gòu)化數(shù)據(jù)源提取事實并且提供與各個事實相對應(yīng)的關(guān)聯(lián)概率??梢酝ㄟ^查詢界面從結(jié)構(gòu)化數(shù)據(jù)源收集數(shù)據(jù),并且可以為這些數(shù)據(jù)分配事實是準確的高概率,例如100%。來自非結(jié)構(gòu)化數(shù)據(jù)源和結(jié)構(gòu)化數(shù)據(jù)源的數(shù)據(jù)與它們對應(yīng)的概率可以被轉(zhuǎn)換為通用的數(shù)據(jù)格式,并且被存儲為組合數(shù)據(jù)結(jié)構(gòu),這使得能實現(xiàn)諸如概率查詢或模糊推理的基于概率的商業(yè)智能操作。在各實施例中,信息管理系統(tǒng)122在處理諸如執(zhí)行查詢、產(chǎn)生報告、在線分析處理(OLAP)等的商業(yè)智能客戶端請求的過程中執(zhí)行數(shù)據(jù)收集操作。OLAP是用于快速回答多維分析查詢的商業(yè)智能技術(shù)。信息管理系統(tǒng)122使能夠響應(yīng)于諸如查詢或報告請求的被請求操作而以并行方式直接從多個操作型數(shù)據(jù)源收集具體數(shù)據(jù)。可以對所收集的數(shù)據(jù)執(zhí)行被請求操作,并且可以將該操作的結(jié)果例如存儲為數(shù)據(jù)結(jié)構(gòu)和/或顯示給用戶。在各實施例中,信息管理系統(tǒng)122在更新數(shù)據(jù)倉庫的過程中定期執(zhí)行數(shù)據(jù)收集操作。然后可以對存儲到數(shù)據(jù)倉庫的數(shù)據(jù)執(zhí)行商業(yè)智能操作。結(jié)合圖2可以更好地理解信息管理系統(tǒng)122。圖2是根據(jù)本發(fā)明實施例的信息管理系統(tǒng)的框圖,該信息管理系統(tǒng)被配置為在如先前描述的處理數(shù)據(jù)質(zhì)量的同時提供實時商業(yè)智能。信息管理系統(tǒng)122的各部件是可以支持專用硬件以優(yōu)化執(zhí)行的一組軟件模塊,專用硬件例如為固態(tài)硬盤(SSD)或現(xiàn)場可編程門陣列(FPGA)。在各實施例中,信息管理系統(tǒng)122的各部件可以在計算設(shè)備102中實現(xiàn),如圖1所示。信息管理系統(tǒng)122包括查詢引擎209,查詢引擎209用于產(chǎn)生被涉及的單個結(jié)構(gòu)化數(shù)據(jù)源和單個非結(jié)構(gòu)化數(shù)據(jù)源的相關(guān)查詢。查詢引擎209可以將商業(yè)智能客戶端請求分解為針對結(jié)構(gòu)化數(shù)據(jù)源和非結(jié)構(gòu)化數(shù)據(jù)源的一組查詢。查詢引擎向?qū)?yīng)的連接器204 (用于結(jié)構(gòu)化數(shù)據(jù)源)和對應(yīng)的連接器206 (用于非結(jié)構(gòu)化數(shù)據(jù)源)產(chǎn)生合適的查詢。連接器從對應(yīng)的數(shù)據(jù)源112獲得合適的數(shù)據(jù)。每個結(jié)構(gòu)化數(shù)據(jù)源連接器204可以可操作地聯(lián)接到對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)源200,諸如關(guān)系數(shù)據(jù)庫、XML數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)集市等。連接器204可以被配置為利用其所聯(lián)接到的特定結(jié)構(gòu)化數(shù)據(jù)源200所特有的數(shù)據(jù)模型來執(zhí)行對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)源200的查詢。例如,連接器204可以利用結(jié)構(gòu)化查詢語言(SQL)或XML數(shù)據(jù)庫上的XQuery等執(zhí)行數(shù)據(jù)庫查詢。每個非結(jié)構(gòu)化數(shù)據(jù)源連接器206可以可操作地聯(lián)接到非結(jié)構(gòu)化數(shù)據(jù)源202,諸如文件存儲庫120 (圖1)和客戶關(guān)系管理(CRM)系統(tǒng)118等。非結(jié)構(gòu)化數(shù)據(jù)源202中的一個或多個文件可以包括用于提供其中包含的數(shù)據(jù)(例如XML文檔、HTML文檔等)的語義的元數(shù)據(jù)標(biāo)簽。每個連接器206可以包括pNLP引擎208和搜索引擎210 (諸如語義搜索引擎)。非結(jié)構(gòu)化數(shù)據(jù)源202可以可操作地聯(lián)接到pNLP引擎208和搜索引擎210。非結(jié)構(gòu)化數(shù)據(jù)源202中的一個或多個文件可以包括半結(jié)構(gòu)化數(shù)據(jù),諸如包括給用于提供其中所包含的數(shù)據(jù)(例如XML文檔、HTML文檔等)的語義的元數(shù)據(jù)標(biāo)簽。搜索引擎210可以執(zhí)行非結(jié)構(gòu)化數(shù)據(jù)源202的搜索。在確定從非結(jié)構(gòu)化數(shù)據(jù)源202提取的各種事實的語義時,搜索引擎210可以考慮這些元數(shù)據(jù)標(biāo)簽。pNLP引擎208可以用于從包括純文本的非結(jié)構(gòu)化文件提取數(shù)據(jù),該非結(jié)構(gòu)化文件例如為MiciOSOftx Word文件、PDF文件和掃描文件等。非結(jié)構(gòu)化數(shù)據(jù)源202的一些示例可以包括文件存儲庫120 (圖1)、客戶關(guān)系管理系統(tǒng)118等。pNLP引擎208可以通過分析特定主題內(nèi)容中的測試文本文件的大型語料庫而產(chǎn)生。pNLP引擎208可以基于相同文字在整個語料庫和周圍環(huán)境中的若干次出現(xiàn),使用統(tǒng)計學(xué)或其他機器學(xué)習(xí)技術(shù)來確定文字可能的含義。在一些實例中,PNLP引擎208可以產(chǎn)生相同文字的可能的不同含義,在這種情況下,每個可能的含義可以與對應(yīng)的概率相關(guān)聯(lián)。pNLP引擎208可以用于從非結(jié)構(gòu)化數(shù)據(jù)源202的文本中提取語義。pNLP引擎208使用從非結(jié)構(gòu)化數(shù)據(jù)源202中提取的語義來產(chǎn)生一組元組,元組在本文中被稱為“事實”。每個事實或者元組描述從非結(jié)構(gòu)化數(shù)據(jù)源中提取的文字之間的關(guān)系,并且包括關(guān)系是準確的對應(yīng)概率。在各實施例中,可以根據(jù)在本文中也被稱為三元組的語義web格式,即由萬維網(wǎng)聯(lián)合會(W3C)規(guī)定的資源描述框架(RDF)來格式化事實。在各實施例中,RDF數(shù)據(jù)模型從三元組(主語、謂語、賓語)擴展到四元組(主語、謂語、賓語、概率值)。主語表示資源,謂語表示資源的特征或特點,并且表達主語和賓語之間的關(guān)系。該概率識別出通過PNLP引擎208所確定的事實是準確的概率。RDF四元組的示例包括主語“紅”、謂語“顏色”、賓語“汽車”,以及80%的概率,其傳達出汽車的顏色是紅色具有80%的概率。在一些情況中,pNLP引擎208可以識別非結(jié)構(gòu)化數(shù)據(jù)源202中相同文字的兩個或多個可能含義。pNLP引擎208被配置為產(chǎn)生與這兩個或更多個可能含義相對應(yīng)的事實,并且將不同的概率關(guān)聯(lián)到每個事實,而不是選擇具有最高概率的可能含義。例如,假定來自非結(jié)構(gòu)化數(shù)據(jù)源202的文本的相同部分,pNLP引擎208可以產(chǎn)生第一事實和第二事實,第一事實表示汽車的顏色是紅色具有80%的概率,第二事實表示衣服的顏色是紅色具有79%的概率。用于執(zhí)行非結(jié)構(gòu)化內(nèi)容的搜索的特定技術(shù)可以根據(jù)存儲到對應(yīng)的非結(jié)構(gòu)化數(shù)據(jù)源202的數(shù)據(jù)的特定類型而調(diào)整。此外,因為可以調(diào)節(jié)信息管理系統(tǒng)122,以容納任何適當(dāng)數(shù)量和類型的在特定實現(xiàn)中可以包括的數(shù)據(jù)源112,因此各實施例并不限于圖2所示的數(shù)據(jù)源112的數(shù)量和類型。在各實施例中,信息管理系統(tǒng)122可以被配置為處理商業(yè)智能客戶端請求,并且可以包括BI處理器212和集成模塊214。BI處理器212可以被配置為接收來自客戶端216(例如來自用戶或分析軟件)的商業(yè)智能客戶端請求。商業(yè)智能客戶端請求可以包括查詢、報告請求、OLAP請求和其他商業(yè)分析。在各實施例中,商業(yè)智能客戶端操作還可以包括內(nèi)容標(biāo)識符,內(nèi)容標(biāo)識符使得集成模塊214能夠識別用于商業(yè)智能客戶端操作的相關(guān)數(shù)據(jù)源。例如,用戶可以選擇金融內(nèi)容,在這種情況下,商業(yè)智能客戶端操作可以應(yīng)用于與企業(yè)中的財務(wù)相關(guān)數(shù)據(jù)源相對應(yīng)的數(shù)據(jù)源112。BI處理器212將BI請求傳遞至查詢引擎209,查詢引擎209被配置為將適當(dāng)?shù)牟樵冋埱蠡蛩阉髡埱蟀l(fā)給相關(guān)連接器。集成模塊214收集從適當(dāng)數(shù)據(jù)源112通過連接器204和206返回的結(jié)果。連接器204和206將從每個數(shù)據(jù)源返回的數(shù)據(jù)轉(zhuǎn)換為通用數(shù)據(jù)顯示,其中通用數(shù)據(jù)顯示合并了諸如作為由萬維網(wǎng)聯(lián)合會(W3C)規(guī)定的資源描述框架(RDF)的擴展的RDF四元組的概率。連接器204和206還使不同數(shù)據(jù)源110之間的語義一致。例如,一個數(shù)據(jù)源110可以將本地地址信息稱為“本地地址”,同時另一個數(shù)據(jù)源110可以將相同類型的信息稱為“居住地址”。連接器204和206可以被配置為確定這兩個詞語指代相同類型的信息,并且將該信息轉(zhuǎn)換為通用語義顯示。例如,連接器204和206可以被配置為將“居住地址”的實例轉(zhuǎn)換為“本地地址”或某個其他通用詞語。連接器204和206還使數(shù)據(jù)源110之間的語義和包括在內(nèi)容標(biāo)識符中的域具體語義一致,該域具體語義可以被提供在商業(yè)智能客戶端請求中。在各實施例中,從相關(guān)連接器返回的組合數(shù)據(jù)被存儲到公用數(shù)據(jù)存儲區(qū)中。如果所擴展的RDF格式(即四元組)被用作通用數(shù)據(jù)顯示格式,則該公用數(shù)據(jù)存儲區(qū)可以被稱為“四元組存儲區(qū)”。例如,四元組存儲區(qū)可以利用ORACLE 11G、JENA、3ST0RE、SESAME、B0CA或其他可用軟件來實現(xiàn)。BI處理器212可以利用由集成模塊214產(chǎn)生的公用數(shù)據(jù)存儲區(qū)來執(zhí)行被請求的BI客戶端操作。例如,BI處理器212可以對包含從集成模塊214返回的四元組的四元組存儲區(qū)執(zhí)行SPARQL查詢的擴展版本。另外,BI處理器212可以產(chǎn)生報告,創(chuàng)建多維OLAP結(jié)構(gòu),或者利用模糊web本體語言(模糊OWL )對四元組存儲區(qū)中的四元組執(zhí)行模糊本體推理??梢杂葿I處理器212執(zhí)行的其他商業(yè)智能客戶端操作包括諸如數(shù)據(jù)挖掘、統(tǒng)計分析、預(yù)測分析、業(yè)務(wù)流程建模和其他商業(yè)分析的分析。由商業(yè)智能客戶端請求提供的結(jié)果可以包括多個答案,其中每個答案可以與答案是正確的確定性概率相關(guān)聯(lián)。例如,響應(yīng)于諸如概率查詢的概率商業(yè)智能客戶端請求,BI處理器212可以產(chǎn)生可以向用戶展示的概念圖,并且包括適合查詢中規(guī)定的標(biāo)準的事實。每個事實可以包括對應(yīng)于所提供的結(jié)果是準確的確定度的確定指標(biāo)。在實施例中,BI處理器212被配置為返回滿足由確定性規(guī)范規(guī)定的確定性的結(jié)果。例如,BI處理器212可以使用確定性規(guī)范以忽略具有降到規(guī)定確定性以下的概率的事實。另外,如果BI處理器212識別出兩個或更多個可能的事實,該兩個或更多個可能的事實的對應(yīng)概率位于確定性規(guī)范之上,所有的這些事實可以被展示給用戶,包括對應(yīng)于每個事實的每個確定性指標(biāo)。圖3是根據(jù)本發(fā)明實施例的集成來自不同數(shù)據(jù)質(zhì)量的數(shù)據(jù)源的數(shù)據(jù)的方法的處理流程圖。該方法以附圖標(biāo)記300來表示,并且可以通過圖1所示的信息管理系統(tǒng)122來實現(xiàn)。在各實施例中,通過例如如關(guān)于圖2所討論的從用戶或分析軟件所接收的商業(yè)智能客戶端請求來觸發(fā)方法300。在這些實施例中,可以響應(yīng)于商業(yè)智能客戶端請求,而從各個數(shù)據(jù)源收集數(shù)據(jù)。因此,該方法可以在框302開始,在框302中接收商業(yè)智能客戶端請求。商業(yè)智能客戶端請求可以包括其結(jié)果依賴于一個或多個結(jié)構(gòu)化數(shù)據(jù)源和一個或多個非結(jié)構(gòu)化數(shù)據(jù)源中的信息的查詢。如關(guān)于圖2所討論的,商業(yè)智能客戶端請求可以通過信息管理系統(tǒng)122的BI處理器212接收。BI處理器212可以將商業(yè)智能客戶端請求發(fā)送至查詢引擎209,查詢引擎209將商業(yè)智能客戶端請求分解為任意數(shù)量的適當(dāng)數(shù)據(jù)收集操作,以獲取與商業(yè)智能客戶端操作相對應(yīng)的數(shù)據(jù)。例如,查詢引擎209可以產(chǎn)生一組一個或多個子查詢。該組子查詢可以包括由聯(lián)接至對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)源200的連接器204處理的SQL查詢。該組子查詢還可以包括由聯(lián)接至對應(yīng)的非結(jié)構(gòu)化數(shù)據(jù)源202的pNLP引擎208處理的一個或多個搜索請求。在框304,可以利用pNLP引擎208從非結(jié)構(gòu)化數(shù)據(jù)源獲得數(shù)據(jù),如關(guān)于圖2所描述的。所獲得的數(shù)據(jù)可以包括被結(jié)構(gòu)化為元組(例如RDF四元組)的多個事實。通過pNLP引擎208返回的每個事實將包括事實為準確的對應(yīng)概率。在框306,可以利用諸如連接器204 (圖2)的查詢界面來從結(jié)構(gòu)化數(shù)據(jù)源獲得數(shù)據(jù)。該數(shù)據(jù)也可以包括被結(jié)構(gòu)化作元組(例如RDF四元組)的多個事實。在各實施例中,連接器204以結(jié)構(gòu)化數(shù)據(jù)源所特有的數(shù)據(jù)格式從結(jié)構(gòu)化數(shù)據(jù)源接收數(shù)據(jù)。連接器204將所接收的數(shù)據(jù)轉(zhuǎn)換為一個或多個事實,并且為該事實分配高概率(例如大約100%)。換句話說,從結(jié)構(gòu)化數(shù)據(jù)源獲得的事實將與表示事實是準確的概率相關(guān)聯(lián)。在框308,可以利用包括概率的通用數(shù)據(jù)格式將在框304和框306中從結(jié)構(gòu)化數(shù)據(jù)源和未結(jié)構(gòu)化數(shù)據(jù)源所接收的數(shù)據(jù)存儲到組合數(shù)據(jù)存儲區(qū)。該組合數(shù)據(jù)集可以表示通過若干數(shù)據(jù)收集操作返回的每個數(shù)據(jù)集的聯(lián)合。在各實施例中,該組合數(shù)據(jù)集是表示概念圖的RDF四元組存儲區(qū),在概念圖中每個事實描述為主語-謂語-賓語的關(guān)系和對應(yīng)的概率。在各實施例中,從PNLP引擎208或連接器204接收的數(shù)據(jù)中的一些數(shù)據(jù)可以以適當(dāng)?shù)臄?shù)據(jù)模型來表示。例如,PNLP引擎208可以以資源描述框架數(shù)據(jù)模型編碼從非結(jié)構(gòu)化數(shù)據(jù)源202提取的結(jié)構(gòu)化數(shù)據(jù)。沒有以通用數(shù)據(jù)格式編碼的數(shù)據(jù)集可以通過集成模塊214被轉(zhuǎn)換為通用格式。在框310,可以針對包含概率的組合數(shù)據(jù)集處理商業(yè)智能客戶端請求。BI處理器212可以利用由集成模塊214產(chǎn)生的組合數(shù)據(jù)集執(zhí)行所請求的BI操作。在各實施例中,針對組合數(shù)據(jù)集執(zhí)行的商業(yè)智能客戶端請求可以利用語義web查詢語言(SPARQL)的擴展版本來處理,或者利用模糊OWL執(zhí)行推理,如關(guān)于圖2所討論的。返回的結(jié)果可以被儲藏以供將來使用。圖4是示出存儲用于集成來自不同數(shù)據(jù)質(zhì)量的數(shù)據(jù)源的數(shù)據(jù)的代碼的非臨時性計算機可讀介質(zhì)的框圖。大體上通過附圖標(biāo)記400來指該非暫時性計算機可讀介質(zhì)。非暫時性計算機可讀介質(zhì)400可以對應(yīng)于用于存儲諸如程序代碼等計算機實現(xiàn)的指令的任何典型的存儲設(shè)備。例如,非暫時性計算機可讀介質(zhì)400可以包括一個或多個非易失性存儲器、易失性存儲器和/或一個或多個存儲設(shè)備。非易失性存儲器的示例包括,但是并不限于電可擦可編程只讀存儲器(EEPROM)和只讀存儲器(ROM)。易失性存儲器的示例包括,但是并不限于,靜態(tài)隨機存取存儲器(SRAM)和動態(tài)隨機存取存儲器(DRAM)。存儲設(shè)備的示例包括,但是并不限于此,硬盤驅(qū)動器、光盤驅(qū)動器、數(shù)字多功能影音光碟機、光驅(qū)和快閃存儲器設(shè)備。根據(jù)本文所描述的信息管理系統(tǒng)122的實施例,處理器402,其可以是如圖1所示的處理部件104,通常檢索并執(zhí)行存儲在非暫時性計算機可讀介質(zhì)400中的指令,從而以考慮由不同數(shù)據(jù)源提供的數(shù)據(jù)的不同數(shù)據(jù)質(zhì)量的方式集成來自非結(jié)構(gòu)化數(shù)據(jù)源和結(jié)構(gòu)化數(shù)據(jù)源的數(shù)據(jù)。如上所述,處理器402可以被配置為利用概率自然語言處理器從非結(jié)構(gòu)化數(shù)據(jù)源獲得數(shù)據(jù)。該數(shù)據(jù)可以包括多個事實,每個事實包括事實是準確的的對應(yīng)概率。處理器還可以被配置為從結(jié)構(gòu)化數(shù)據(jù)源獲得數(shù)據(jù)。從結(jié)構(gòu)化數(shù)據(jù)源獲得的數(shù)據(jù)可以包括多個事實,每個事實包括對應(yīng)的高概率,例如大約100%。處理器可以被配置為利用包括概率的通用數(shù)據(jù)格式將數(shù)據(jù)存儲至組合數(shù)據(jù)集。處理器還可以被配置為接收商業(yè)智能客戶端請求,并響應(yīng)于該商業(yè)智能客戶端請求而從兩個或更多個數(shù)據(jù)源獲得數(shù)據(jù)。在各實施例中,處理器被配置為對組合數(shù)據(jù)集執(zhí)行商業(yè)智能客戶端請求,例如,利用考慮概率的語義web語言。
權(quán)利要求
1.一種用于信息管理的方法,包括: 利用概率自然語言處理(PNLP)引擎從非結(jié)構(gòu)化數(shù)據(jù)源獲得第一數(shù)據(jù)集,所述第一數(shù)據(jù)集包括第一元組,所述第一元組包括關(guān)系以及所述關(guān)系是準確的的對應(yīng)概率; 從結(jié)構(gòu)化數(shù)據(jù)源獲得第二數(shù)據(jù)集,所述第二數(shù)據(jù)集包括第二元組,所述第二元組包括第二關(guān)系和表示所述第二關(guān)系是準確的概率;以及 利用包括與所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集相對應(yīng)的概率的通用數(shù)據(jù)格式將所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集存儲到公用數(shù)據(jù)存儲區(qū)中。
2.根據(jù)權(quán)利要求1所述的方法,包括接收商業(yè)智能客戶端請求,并且將所述商業(yè)智能客戶端請求分解為針對所述結(jié)構(gòu)化數(shù)據(jù)源和所述非結(jié)構(gòu)化數(shù)據(jù)源的一組子查詢。
3.根據(jù)權(quán)利要求2所述的方法,包括至少部分基于所述概率針對所述公用數(shù)據(jù)存儲區(qū)處理所述商業(yè)智能客戶端請求。
4.根據(jù)權(quán)利要求2所述的方法,其中所述商業(yè)智能客戶端請求包括與預(yù)期答案相關(guān)聯(lián)的確定性規(guī)范,并且所述商業(yè)智能客戶端請求的結(jié)果滿足由所述確定性規(guī)范規(guī)定的確定度。
5.根據(jù)權(quán)利要求2所述的方法,其中響應(yīng)于所述商業(yè)智能客戶端請求所提供的結(jié)果包括多個答案,每個答案與確定性的概率相關(guān)聯(lián)。
6.一種提供信息管理的系 統(tǒng),包括: 處理器,被配置為執(zhí)行計算機可讀指令;以及 存儲設(shè)備,用于存儲所述處理器可執(zhí)行的指令模塊,所述指令模塊包括: 被配置為從非結(jié)構(gòu)化數(shù)據(jù)源提取事實的概率自然語言處理引擎,其中每個事實包括關(guān)系和所述關(guān)系是準確的的對應(yīng)概率; 連接器,被配置為從結(jié)構(gòu)化數(shù)據(jù)源提取事實,并將從所述結(jié)構(gòu)化數(shù)據(jù)源提取的事實與表示所述事實是準確的的概率度相關(guān)聯(lián);以及 集成模塊,被配置為將從所述結(jié)構(gòu)化數(shù)據(jù)源和所述非結(jié)構(gòu)化數(shù)據(jù)源返回的結(jié)果存儲到包括與每個事實相關(guān)聯(lián)的對應(yīng)概率的公用數(shù)據(jù)存儲區(qū)。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),包括商業(yè)智能處理器,所述商業(yè)智能處理器被配置為接收商業(yè)智能客戶端請求,并且至少部分基于與每個事實相關(guān)聯(lián)的概率針對所述公用數(shù)據(jù)存儲區(qū)處理所述商業(yè)智能客戶端請求。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中所述公用數(shù)據(jù)存儲區(qū)包括擴展的RDF數(shù)據(jù)模型,所述擴展的RDF數(shù)據(jù)模型包括與每個事實相關(guān)聯(lián)的概率。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述商業(yè)智能處理器利用概率查詢語言或模糊推理來從所述公用數(shù)據(jù)存儲區(qū)中提取答案。
10.根據(jù)權(quán)利要求6所述的系統(tǒng),其中所述集成模塊被配置為響應(yīng)于商業(yè)智能客戶端請求從多個數(shù)據(jù)源獲得多個事實。
11.一種非暫時性計算機可讀介質(zhì),包括被配置為指令處理器進行以下操作的指令: 從非結(jié)構(gòu)化數(shù)據(jù)源獲得第一數(shù)據(jù)集,所述第一數(shù)據(jù)集包括第一事實和所述第一事實是準確的的對應(yīng)第一概率; 從結(jié)構(gòu)化數(shù)據(jù)源獲得第二數(shù)據(jù)集,所述第二數(shù)據(jù)集包括第二事實和所述第二事實是準確的的對應(yīng)第二概率;以及利用包括與所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集相對應(yīng)的概率的通用數(shù)據(jù)格式將所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集存儲在組合數(shù)據(jù)存儲區(qū)中。
12.根據(jù)權(quán)利要求11所述的非暫時性計算機可讀介質(zhì),包括被配置為指令所述處理器接收商業(yè)智能客戶端請求并至少部分基于概率針對所述組合數(shù)據(jù)存儲區(qū)處理所述商業(yè)智能客戶端請求的指令。
13.根據(jù)權(quán)利要求12所述的非暫時性計算機可讀介質(zhì),其中所述商業(yè)智能客戶端請求包括與響應(yīng)于概率商業(yè)智能客戶端請求所提供的結(jié)果是準確的的預(yù)期確定度相對應(yīng)的確定性規(guī)范。
14.根據(jù)權(quán)利要求12所述的非暫時性計算機可讀介質(zhì),包括被配置為指令所述處理器產(chǎn)生所述商業(yè)智能客戶端請求的結(jié)果的指令,所述結(jié)果包括與所述結(jié)果是準確的的確定度相對應(yīng)的確定性指標(biāo)。
15.根據(jù)權(quán)利要求11所述的非暫時性計算機可讀介質(zhì),包括被配置為指令所述處理器接收商業(yè)智能客戶端請求的指令,其中獲得所述第一數(shù)據(jù)集和獲得所述第二數(shù)據(jù)集響應(yīng)于所述商業(yè)智能客戶端請求而 被執(zhí)行。
全文摘要
本發(fā)明提供一種以實時信息管理環(huán)境處理數(shù)據(jù)質(zhì)量的計算機可實現(xiàn)的方法。該方法包括利用概率自然語言處理(pNLP)引擎從非結(jié)構(gòu)化數(shù)據(jù)源獲得第一數(shù)據(jù)集,第一數(shù)據(jù)集包括第一元組,第一元組描述關(guān)系和該關(guān)系是準確的對應(yīng)概率。該方法還包括從結(jié)構(gòu)化數(shù)據(jù)源獲得第二數(shù)據(jù)集,第二數(shù)據(jù)集包括第二元組,第二元組描述第二關(guān)系和表示第二關(guān)系是準確的概率。該方法還包括利用包括與第一數(shù)據(jù)集和所述第二數(shù)據(jù)集相對應(yīng)的概率的通用數(shù)據(jù)格式將第一數(shù)據(jù)集和第二數(shù)據(jù)集存儲到通用數(shù)據(jù)存儲區(qū)中。
文檔編號G06Q50/06GK103154996SQ201080069686
公開日2013年6月12日 申請日期2010年10月25日 優(yōu)先權(quán)日2010年10月25日
發(fā)明者艾哈邁德·K·伊扎特 申請人:惠普發(fā)展公司,有限責(zé)任合伙企業(yè)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1