專利名稱:信息的語義分析的制作方法
技術(shù)領(lǐng)域:
本公開涉及分析數(shù)據(jù)集以推斷語義信息并基于其生成可視化。
背景技術(shù):
作為關(guān)于一些常規(guī)系統(tǒng)的背景技術(shù),計算設(shè)備在傳統(tǒng)上已在設(shè)備本地存儲了信息以及相關(guān)聯(lián)的應(yīng)用和數(shù)據(jù)服務(wù)。但是,隨著在線和云服務(wù)的演進,信息正越來越多地移至網(wǎng)絡(luò)提供商,該網(wǎng)絡(luò)提供商代表設(shè)備來不執(zhí)行服務(wù)、執(zhí)行服務(wù)的一些或全部。能夠存儲數(shù)T字節(jié)數(shù)據(jù)(且在將來潛在可能的千萬億字節(jié)、百萬萬億字節(jié)數(shù)據(jù))的網(wǎng)絡(luò)存儲場的演變創(chuàng)建了在云中模擬本地場景,且使主設(shè)備與外部存儲分隔開的機會。然而,沒有云服務(wù)或網(wǎng)絡(luò)存儲供應(yīng)商能夠作為任何平臺上的服務(wù)有效地提供信息,使得出版商、開發(fā)者以及消費者能以可為跟蹤并審計所涉及的所有事務(wù)的方式容易地發(fā)布、專門研究和消費任何種類的數(shù)據(jù)。另外,當(dāng)今,由于相異數(shù)目的內(nèi)容提供商及其通常用于定義數(shù)據(jù)的專有模式(其中相異的內(nèi)容提供商無法彼此協(xié)調(diào)他們針對云的發(fā)布動作),因此存在極少的利用此類相異發(fā)布動作的集體能力的機會。實際上,為了消耗吸引發(fā)布的聽眾(諸如訂戶或開發(fā)者),兩個不同的數(shù)據(jù)集看起來它們似乎具有兩個不同形狀——即使在存在數(shù)據(jù)或數(shù)據(jù)類型的一些或相當(dāng)重疊的情形中。更具體而言,當(dāng)前,由不同的各方上傳數(shù)據(jù)的方式使得不同數(shù)據(jù)集的類似列(例如,兩者都表示城市)——假使甚至沒有被命名——將具有不同的名稱,這些名稱可以是或不是類似的。在任一情形中,人類介入底層數(shù)據(jù)和驗證是用于確定什么樣的列應(yīng)當(dāng)被相同或類似地命名,或者另外確定數(shù)據(jù)的類型或列之間可能是什么樣的關(guān)系的常規(guī)方式。除不能縮放之外,這種介入底層數(shù)據(jù)對于希望保證其數(shù)據(jù)保持不變的發(fā)布者而言可能并非是合意的——對于可能被發(fā)布到云的專用數(shù)據(jù)集的主機而言亦會如此。當(dāng)今設(shè)備和數(shù)據(jù)服務(wù)的上述缺點僅僅旨在提供對常規(guī)系統(tǒng)的一些問題的總覽,并且不旨在是窮盡性的。在仔細閱讀了以下具體實施方式
后,當(dāng)今領(lǐng)域的其他問題和各非限制性性實施例的對應(yīng)好處可變得顯而易見。
發(fā)明內(nèi)容
此處提供了簡化的發(fā)明內(nèi)容以幫助能夠?qū)σ韵赂敿毜拿枋龊透綀D中的示例性、 非限制性性實施例的各方面有基本或大體的理解。然而,本發(fā)明內(nèi)容并不旨在作為詳盡的或窮盡的概觀。相反,本發(fā)明內(nèi)容的唯一目的是以簡化的形式來提出與一些示例性非限制性性實施例相關(guān)的一些概念,作為以下各實施例的更為詳細的描述的序言。可按統(tǒng)一方式將各種數(shù)據(jù)集存儲在較大的儲存庫中,以提供信息即服務(wù)系統(tǒng)。各種數(shù)據(jù)集可由不同的發(fā)布者來各自發(fā)布,且因此,這些數(shù)據(jù)集可包括重疊字段或列。系統(tǒng)可對數(shù)據(jù)集執(zhí)行語義分析,以推斷數(shù)據(jù)集的各個字段或列的語義類型或含義。隨著發(fā)現(xiàn)越來越多的語義,信息即服務(wù)系統(tǒng)可按演進方式學(xué)習(xí)并且自描述存儲在數(shù)據(jù)集中數(shù)據(jù)。另外,通過所習(xí)得的語義信息,信息即服務(wù)系統(tǒng)可經(jīng)由重疊字段或列來發(fā)現(xiàn)數(shù)據(jù)集之間的關(guān)系。例如,信息即服務(wù)系統(tǒng)可生成例如數(shù)據(jù)集之間的聯(lián)結(jié)或鏈接之類的混搭,其可展示數(shù)據(jù)集中的數(shù)據(jù)之間的先前未知的關(guān)聯(lián)。混搭可形成被提供給系統(tǒng)的用戶的數(shù)據(jù)關(guān)系的豐富可視化和/或用戶界面的基礎(chǔ)??山?jīng)由一系列互補和/或補充動作來推斷語義信息。動作可經(jīng)由例如由手輸入的人類輸入之類的手動手段來驗證、覆蓋或增強應(yīng)用于數(shù)據(jù)集的字段或列的標簽??蓪φ站哂幸阎Z義類型的潛在有效名稱的列表來檢查字段名稱。可應(yīng)用匹配來將語義類型與字段或列進行關(guān)聯(lián)??蓪⒔破ヅ涑尸F(xiàn)給用戶以供進行驗證。在另一分析中,可標識數(shù)據(jù)集的字段的格式以促進對語義類型的確定?;诟袷交蚱渌麉?shù),可選擇一個或多個基準數(shù)據(jù)集(例如,具有已知語義類型)來檢查字段或列的值。以下更詳細地描述其他實施例和各非限制性性示例、場景和實現(xiàn)。
各非限制性性實施例參考附圖來進一步描述,附圖中圖1是圖解用于確定與數(shù)據(jù)集相關(guān)聯(lián)的語義信息的示例性非限制性實施例的流程圖;圖2是圖解用于對照具有已知語義類型的潛在標簽檢查數(shù)據(jù)集的字段名稱的示例性非限制性實施例的流程圖;圖3是用于基于從數(shù)據(jù)集提取的樣本信息的格式來選擇基準數(shù)據(jù)集的示例性非限制性實施例的流程圖;圖4是圖解用于對照基準數(shù)據(jù)集檢查來自數(shù)據(jù)樣本的值的示例性非限制性實施例的流程圖;圖5是圖解用于對與語義類型相關(guān)聯(lián)的值的集合執(zhí)行域檢查的示例性非限制性實施例的流程圖;圖6是圖解從信息即服務(wù)系統(tǒng)中的所發(fā)布的數(shù)據(jù)集推斷語義信息的示例性非限制性動作的框圖;圖7是圖解用于利用語義信息來將不同的數(shù)據(jù)集進行關(guān)聯(lián)的示例性非限制性實施例的流程圖;圖8是圖解生成信息即服務(wù)系統(tǒng)中所提供的數(shù)據(jù)集之間的關(guān)系信息的示例性非限制性動作的框圖;圖9是圖解用于可視化信息即服務(wù)系統(tǒng)的數(shù)據(jù)集之間的關(guān)系的示例性非限制性動作的框圖;圖10是圖解結(jié)合信息即服務(wù)系統(tǒng)的實施例生成數(shù)據(jù)集關(guān)系和混搭的可視化的示例性非限制性動作的框圖;圖11是結(jié)合信息即服務(wù)系統(tǒng)的實施例的數(shù)據(jù)集之間的關(guān)系的可視化的示例性非限制性例示;圖12是圖解用于從任何平臺提供的作為服務(wù)的信息的非限制性基礎(chǔ)結(jié)構(gòu)的示例性序列的流程圖;圖13是圖解用于從任何平臺提供的作為服務(wù)的信息的示例性非限制性基礎(chǔ)結(jié)構(gòu)的框圖14是圖解用于從任何平臺提供的作為服務(wù)的信息的基礎(chǔ)結(jié)構(gòu)的實現(xiàn)具體細節(jié)的示例性非限制性集合的框圖;圖15例示來自用于從任何平臺提供的作為服務(wù)的信息的示例性基礎(chǔ)結(jié)構(gòu)的示例性數(shù)據(jù)消費;圖16是表示其中可實現(xiàn)此處所描述的各實施例的示例性、非限制性性聯(lián)網(wǎng)環(huán)境的框圖;以及圖17是表示其中可實現(xiàn)此處所描述的各實施例的一個或多個方面的示例性、非限制性性計算系統(tǒng)或操作環(huán)境的框圖。
具體實施例方式概覽如背景技術(shù)中所討論的,提供不同的數(shù)據(jù)集的不同的內(nèi)容提供商通常就其數(shù)據(jù)集中所表示的信息或數(shù)據(jù)類型的可能的重疊不進行協(xié)調(diào),因為他們通常不知曉彼此的數(shù)據(jù)集,或者沒有如此進行的任何特定動機。當(dāng)前,在其中存儲實體的保證中的一個被依附來訪問發(fā)布者所要求的限制的信息即服務(wù)系統(tǒng)(在此也稱為從任何平臺提供的作為服務(wù)的信息)中,除了通過數(shù)據(jù)集的特定內(nèi)容的內(nèi)部知識之外,不存在用于了解或可視化開發(fā)或消費側(cè)上的不同數(shù)據(jù)集之間的唯一性關(guān)系的方式。另外,在信息即服務(wù)系統(tǒng)中,在發(fā)布之后, 由存儲實體提供的另一保證對底層數(shù)據(jù)集沒有干擾,因此所發(fā)布的數(shù)據(jù)保持未被改變。在此類情形中,在沒有開發(fā)定制應(yīng)用程序的情況下,唯一性關(guān)系(若已知)當(dāng)前不能被利用。例如,內(nèi)容提供商A可發(fā)布包括關(guān)于緯度、經(jīng)度、以及對應(yīng)的犯罪率的列的表,例如,列名為Iat (緯度)、long (經(jīng)度)、和cri_rate (犯罪_率)。內(nèi)容提供商B可發(fā)布城市的電影院信息,且χ和y坐標對應(yīng)于緯度和經(jīng)度——除了城市的列可替代地被稱為“名稱”, 例如列名為_theatre (_電影院)、_Name (_名稱)、_x和_y。因此,消費側(cè)上的任何常規(guī)裝置不知曉的是,通過聯(lián)結(jié)兩個集合,可實際上確定城市中具有最低犯罪率的電影院,因為不同列的語義含義仍是難懂的。此外,存儲側(cè)上的常規(guī)裝置同樣不知曉的是,可在人類不進行手動檢查和分析的情況下聯(lián)結(jié)兩個集合。因而,期望確定_x和_y為緯度和經(jīng)度,_Name意味著城市名稱,而_theatre指的是電影院名稱。即,期望捕獲關(guān)于列的語義信息,其中語義信息傳達指示列中所包含的數(shù)據(jù)的語義含義的至少語義類型。通過使用語義信息,可系統(tǒng)地推導(dǎo)出關(guān)系信息,其使得能聯(lián)結(jié)兩個數(shù)據(jù)集合以容易地獲得關(guān)于電影院附近的犯罪率的有用數(shù)據(jù)——在沒有語義信息的情況下不能被辨別的信息。如先前所提及的,此工作在常規(guī)上是通過手來進行的。然而,在數(shù)據(jù)集包括許多條目、列或行(例如,數(shù)千、數(shù)百萬、數(shù)十億等)的情形中,手動加標簽變成繁重且耗時的任務(wù)。另外,加錯標簽的幾率也隨著數(shù)據(jù)大小的增長而增加。因此,在各個非限制性實施例中,可對儲存庫(諸如但不限于信息即服務(wù)系統(tǒng))中所保留的數(shù)據(jù)集合執(zhí)行語義分析。通過語義分析,可作出關(guān)于數(shù)據(jù)的推論,以用語義信息來擴充數(shù)據(jù)集,從而不僅通過提供原來被認為表示不同的數(shù)據(jù)/類型的列之間的映射來提高聯(lián)結(jié)(例如混搭)的可能性,還改進數(shù)據(jù)和/或數(shù)據(jù)內(nèi)的字段的描述。在這點上,根據(jù)各個實施例,數(shù)據(jù)集的儲存庫(例如,信息即服務(wù)系統(tǒng))可系統(tǒng)地理解數(shù)據(jù)的類型,以及數(shù)據(jù)之間的連接,以增大底層數(shù)據(jù)的值,以及發(fā)現(xiàn)先前未知的關(guān)聯(lián)。
在一個實施例中,本文中描述了一種方法,該方法包括從存儲在數(shù)據(jù)儲存庫中的數(shù)據(jù)集提取數(shù)據(jù)子集;標識與數(shù)據(jù)子集相對應(yīng)的格式;基于格式選擇至少一個基準數(shù)據(jù)集,其中該至少一個基準數(shù)據(jù)集與已知語義類型相關(guān)聯(lián);將數(shù)據(jù)子集的值與至少一個基準數(shù)據(jù)集進行比較;以及基于比較結(jié)果來推斷數(shù)據(jù)集的語義信息,其中該語義信息至少指定數(shù)據(jù)集中的數(shù)據(jù)的語義類型。在一示例中,該方法還可包括向用戶提供語義信息以供進行確認。在更多示例中,提取數(shù)據(jù)子集可包括提取整個數(shù)據(jù)集,隨機選擇數(shù)據(jù)集的值,或者從以下各項中的至少一個處提取預(yù)定數(shù)量的值數(shù)據(jù)集的開頭、數(shù)據(jù)集的末尾、或數(shù)據(jù)集的中間。在另一示例中,方法可包括對照一個或多個域規(guī)則驗證數(shù)據(jù)子集的值,其中一個或多個域規(guī)則對應(yīng)于數(shù)據(jù)集中的數(shù)據(jù)的語義類型,以及向用戶呈現(xiàn)無效值,其中無效值包括一個或多個域規(guī)則不允許的值。在進一步示例中,方法可包括從數(shù)據(jù)集提取字段名稱,以及將字段名稱與潛在有效標簽集合作比較。作為對該示例的補充,方法可包括標識字段名稱何時匹配于潛在有效標簽集合中的標簽,當(dāng)匹配時標識與標簽相關(guān)聯(lián)的類型,以及按照數(shù)據(jù)集的語義類型將數(shù)據(jù)集與類型進行關(guān)聯(lián)。在進一步示例中,該方法還可包括對照多個預(yù)配置模式評估數(shù)據(jù)子集的值的結(jié)構(gòu);標識值的結(jié)構(gòu)何時匹配預(yù)配置模式,選擇至少一個基準數(shù)據(jù)集其中與至少一個基準數(shù)據(jù)集相關(guān)聯(lián)的已知語義類型對應(yīng)于預(yù)配置模式,并且當(dāng)匹配預(yù)配置模式的結(jié)構(gòu)的數(shù)目超過預(yù)定閾值時,采納已知語義類型作為數(shù)據(jù)集的數(shù)據(jù)的語義類型。根據(jù)附加示例,比較數(shù)據(jù)子集的值可包括從值中選擇一值,就該值查詢至少一個基準數(shù)據(jù)集,并且當(dāng)返回就該值的查詢的結(jié)果時對有效命中進行計數(shù)。在另一示例中,方法可包括標識第二數(shù)據(jù)集,該數(shù)據(jù)集包括與該數(shù)據(jù)集的語義類型相對應(yīng)的至少一個字段; 以及生成將數(shù)據(jù)集與第二數(shù)據(jù)集相關(guān)聯(lián)的關(guān)系信息,其中該關(guān)系信息指定數(shù)據(jù)集與第二數(shù)據(jù)集之間的關(guān)聯(lián)。另外,該方法還可包括獲得關(guān)系信息,該關(guān)系信息將數(shù)據(jù)儲存庫中的多個數(shù)據(jù)集進行關(guān)聯(lián);顯示關(guān)系信息的可視化作為圖形用戶界面的一部分,經(jīng)由圖形用戶界面接收輸入;以及基于輸入更新關(guān)系信息。在另一實施例中,如本文所描述的,語義分析系統(tǒng)包括語義分析組件,其被配置成推斷與由信息即服務(wù)系統(tǒng)所存儲的數(shù)據(jù)集的數(shù)據(jù)有關(guān)的語義信息。語義分析組件包括格式檢查組件,其被配置成標識從數(shù)據(jù)集提取的樣本數(shù)據(jù)的格式,以及基于該格式選擇一個或多個基準數(shù)據(jù)集;以及值檢查組件,其被配置成對照一個或多個基準數(shù)據(jù)集檢查樣本數(shù)據(jù)的值,以標識樣本數(shù)據(jù)的語義類型。另外,語義分析組件基于所標識的語義類型推斷語義 fn息ο在一示例中,系統(tǒng)還包括域檢查組件,其被配置成確定樣本數(shù)據(jù)的值是否滿足域規(guī)則集。域規(guī)則集確立特定數(shù)據(jù)類型的有效數(shù)據(jù)值。在進一步示例中,該系統(tǒng)包括鏈接組件,其被配置成基于相應(yīng)的語義信息將由信息即服務(wù)系統(tǒng)存儲的多個不同數(shù)據(jù)集進行關(guān)聯(lián);以及可視化組件,其被配置成生成由信息即服務(wù)系統(tǒng)存儲的數(shù)據(jù)集之間的關(guān)聯(lián)的可視化??梢暬▓D顯示,其中節(jié)點表示相應(yīng)的數(shù)據(jù)集,而邊表示數(shù)據(jù)集之間的關(guān)聯(lián)。在附加實施例中,本文描述了一種計算機可讀存儲介質(zhì),其包括計算機執(zhí)行指令, 該指令在被執(zhí)行時導(dǎo)致計算設(shè)備執(zhí)行以下操作從存儲在數(shù)據(jù)儲存庫中的數(shù)據(jù)集提取數(shù)據(jù)子集;標識與數(shù)據(jù)子集相對應(yīng)的格式;基于格式選擇至少一個基準數(shù)據(jù)集,其中該至少一個基準數(shù)據(jù)集與已知語義類型相關(guān)聯(lián);將數(shù)據(jù)子集的值與至少一個基準數(shù)據(jù)集進行比較; 以及基于比較結(jié)果來推斷數(shù)據(jù)集的語義信息,其中該語義信息至少指定數(shù)據(jù)集中的數(shù)據(jù)的語義類型。下面提供這些和其他各示例性、非限制性性實施例和場景的進一步細節(jié)。結(jié)合作為服務(wù)的信息確定和可視化數(shù)據(jù)集語義如所提及的,在信息即服務(wù)的上下文中,存在對在無需智能的情況下可從數(shù)據(jù)集確定什么機器的限制。例如,這樣的機器可確定數(shù)據(jù)集的第一列包括字符串,第二列包括數(shù)字,而一對其他列包括混合數(shù)據(jù)類型,例如,數(shù)字和字符串。另外,雖然人類開始針對大量數(shù)據(jù)分類數(shù)據(jù),但是此類常規(guī)人類分類無法良好地縮放,且如果發(fā)布者重新發(fā)布具有不同語義的數(shù)據(jù),則人類表征可能已過時。另外,人類會將數(shù)據(jù)集錯誤地表征為數(shù)據(jù)可看起來與特定域相關(guān),但是人類可能缺乏足夠的域知識來驗證數(shù)據(jù)集。因此,在各個實施例中,可對統(tǒng)一儲存庫中的數(shù)據(jù)集應(yīng)用各種機制,以系統(tǒng)地生成表征數(shù)據(jù)集中所包括的數(shù)據(jù)的信息類型和/或含義的語義信息。語義信息可被用來驗證、 替代和補充人類表征。一種機制涉及基于數(shù)據(jù)集的數(shù)據(jù)或列名稱、或其他列名稱中的線索來推斷數(shù)據(jù)類型或列名稱。例如,可對照潛在有效標簽集合來檢查列或字段名稱。當(dāng)列名稱匹配潛在有效標簽集合中的有效標簽時,可推斷語義信息(例如,語義類型)。然而,當(dāng)字段名稱拼寫錯誤時或者當(dāng)字段內(nèi)的數(shù)據(jù)無效(例如,落在與所匹配的有效標簽相關(guān)聯(lián)的域之外)時,僅有此機制會導(dǎo)致錯誤或不準確。為了解決列名稱未匹配的數(shù)據(jù)和/或為了驗證所匹配的標簽的準確度,可對列中的數(shù)據(jù)執(zhí)行附加處理。例如,可提取列中的數(shù)據(jù)樣本,以通過與已知數(shù)據(jù)模式集合的模式匹配來評估數(shù)據(jù)的格式。在非限制性示例中,具有形式χχχ-χχχ-χχχχ或((XXX) XXX-XXXX)的數(shù)據(jù)——其中X表示任意數(shù)字——可被識別為電話號碼。在一些情形中,格式檢查可能不提供明確的結(jié)果。例如,城市名稱的列可被模式匹配為字符串,但是可能難以獲得進一步的細節(jié),因為城市名稱不具有公共或固有格式化約束。然而,在此類情形中,格式檢查可通過排除不遵循所評估的格式的可能的語義類型來促進進一步的語義分析和/或語義類型的標識。例如,當(dāng)格式被評估為字符串時,電話號碼、緯度、經(jīng)度、日期、年齡、以及其他數(shù)字類型可被排除為可能的語義類型??上蛴脩舫尸F(xiàn)可能的語義類型的列表,該列表提供字符串?dāng)?shù)據(jù),諸如但不限于城市名稱、國家名稱、區(qū)域名稱、企業(yè)名稱等。另外,根據(jù)另一實施例,可能的語義類型的列表可被用來選擇具有已知語義類型的數(shù)據(jù)集,該數(shù)據(jù)集將被用作用于值檢驗的基準數(shù)據(jù)集。在值檢驗中,可對照與候選語義類型相關(guān)聯(lián)的基準數(shù)據(jù)集來匹配數(shù)據(jù)集的列中的數(shù)據(jù)樣本。可查詢基準數(shù)據(jù)集以確定樣本的值是否被包含在其中??纱_立一個或多個閾值, 以促進在明確匹配之間進行區(qū)分,例如,數(shù)據(jù)集的列包括候選語義類型的數(shù)據(jù)、明確失配、 以及模糊結(jié)構(gòu)。例如,100%驗證一例如樣本中的每個值在基準數(shù)據(jù)集中一可被分類為明確匹配。在另一示例中,模糊結(jié)果可被轉(zhuǎn)發(fā)給用戶,以供進行驗證、校正、或覆蓋。在另一實施例中,與統(tǒng)一儲存庫中的數(shù)據(jù)集的列相關(guān)聯(lián)的語義信息促進數(shù)據(jù)集之間的聯(lián)結(jié)點的即時發(fā)現(xiàn),這可被利用來生成感興趣的數(shù)據(jù)集混搭。在示例中,可沿著重疊的城市字段將包括犯罪統(tǒng)計數(shù)據(jù)(可包括城市犯罪率)的第一數(shù)據(jù)集與包括城市房地產(chǎn)信息的第二數(shù)據(jù)集進行聯(lián)結(jié)。由于如以上所描述地生成數(shù)據(jù)集的更多字段的語義信息,系統(tǒng)可連續(xù)地理解數(shù)據(jù)集之間的新的關(guān)聯(lián)可被推導(dǎo)出以增加底層數(shù)據(jù)的值。另外,關(guān)聯(lián)以及混搭數(shù)據(jù)自身可被可視化,并結(jié)合用戶界面來顯示。例如,具有表示儲存庫中的數(shù)據(jù)集的節(jié)點的圖形顯示可被呈現(xiàn)給用戶。當(dāng)用戶選擇節(jié)點(例如,數(shù)據(jù)集) 時,可在所選節(jié)點與其他節(jié)點(例如,數(shù)據(jù)集)之間繪制鏈接,其中可推導(dǎo)出關(guān)聯(lián)。在另一示例中,用戶可選擇數(shù)據(jù)集之間的鏈接以獲得混搭的可視化,例如,所生成的數(shù)據(jù)集作為兩個不同的數(shù)據(jù)集的聯(lián)結(jié)而生成。圖1是圖解用于確定與數(shù)據(jù)集相關(guān)聯(lián)的語義信息的示例性非限制性實施例的流程圖。在特定非限制性示例中,數(shù)據(jù)集可被包括在由信息即服務(wù)系統(tǒng)管理和展示的數(shù)據(jù)儲存庫中。然而,應(yīng)當(dāng)理解,私有數(shù)據(jù)集可利用本文中所描述的實施例來以具有減少的人類輸入的自動方式生成語義信息和/或感興趣的混搭。在100,可將數(shù)據(jù)集中的字段或列的一個或多個字段名稱(例如,列名稱)與潛在有效標簽列表作比較。潛在有效標簽包括字段名稱、列名稱、數(shù)據(jù)標記、標簽等,其具有已知的語義含義或類型??苫谂c列表中的有效標簽的匹配來推斷數(shù)據(jù)集中的一個或多個字段或列的語義信息。然而,可執(zhí)行進一步處理以細化或驗證從字段名稱檢查生成的語義信息。 例如,在110,標識數(shù)據(jù)集的一個或多個字段的格式。作為示例,電話號碼是典型數(shù)字數(shù)據(jù), 其可被相對地標識為諸如區(qū)域碼括號、破折號等等(不管是變體如何)。因此,可從針對電話號碼、社會保險號、日歷日期、時間戳等的格式檢驗來推斷語義信息。在其他情形中,雖然格式檢驗可能不能明確地標識數(shù)據(jù)集中的數(shù)據(jù)的含義或類型,但是其可通過排除與所標識的格式相關(guān)聯(lián)的數(shù)據(jù)類型來減少潛在候選的數(shù)目。例如,格式檢驗可縮減由值檢驗測試的潛在候選語義類型的數(shù)目。在120,對照至少一個基準數(shù)據(jù)集檢驗數(shù)據(jù)集的一個或多個字段的實際值。基準數(shù)據(jù)集包括已知語義信息,例如,數(shù)據(jù)具有已知語義類型或含義,其可被查詢以確定一個或多個字段的值是否對應(yīng)于已知語義類型。在130,確定與數(shù)據(jù)集的一個或多個字段相關(guān)聯(lián)的語義類型??苫谧侄蚊Q檢驗、格式評估、和/或值檢驗來確定語義類型。另外,可將語義類型報告給用戶以供確認,或者作為數(shù)據(jù)集的可視化的一部分。應(yīng)當(dāng)理解,以上所描述的過程可按自動化方式來進行而無需用戶介入。然而,在另一實施例中,可在過程中的各個步驟處提示用戶確認所確定的語義信息(或迄今所確定的部分語義信息)、請求進一步處理、解決不一致的格式或值、覆蓋過程、或更改所猜測的語義信息。例如,在一個示例中,可提示用戶在字段名稱檢驗期間驗證密切匹配,例如,字段名稱為“_fname”且有效標簽列表包括“_name”或“name”。在另一示例中,可提示用戶接受或校正在至少一個基準數(shù)據(jù)集中未找到的值。例如,值是由于數(shù)據(jù)集中的印刷錯誤而未被找到, 這可由用戶來識別。因此,用戶輸入可被用來補充和/或驗證推論。圖2是圖解用于對照具有已知語義類型的潛在標簽檢查數(shù)據(jù)集的字段名稱的示例性非限制性實施例的流程圖。在200,接收到來自信息儲存庫(例如,信息即服務(wù)系統(tǒng)) 的數(shù)據(jù)集。在210,提取數(shù)據(jù)集的一個或多個字段名稱。在220,在所提取的字段名稱與潛在有效標簽集合之間執(zhí)行例如字符串比較之類的比較。潛在有效標簽集合包括數(shù)據(jù)字段的可能的標記或名稱,其中標簽的語義含義或數(shù)據(jù)字段的語義類型是已知的??捎迷谙惹皩τ诓煌瑪?shù)據(jù)的語義分析期間碰到的字段名稱、公共用于數(shù)據(jù)集的字段名稱、用戶提供的標簽等來填充潛在有效標簽集合。在M0,可作出是否存在一個或多個字段名稱與列表中的有效標簽之間的匹配的確定。如果不存在匹配,則語義分析可繼續(xù)利用不同的機制,或者可提示用戶來介入。如果存在匹配,則在對0,標識與所匹配的有效標簽相關(guān)聯(lián)的語義類型,并將其標記為與一個或多個字段名稱相關(guān)聯(lián)的一個或多個字段的可能的語義類型。圖3是用于基于從數(shù)據(jù)集提取的樣本信息的格式來選擇基準數(shù)據(jù)集的示例性非限制性實施例的流程圖。在300,從數(shù)據(jù)集中提取對應(yīng)于該數(shù)據(jù)集的一個或多個字段(例如,列)的數(shù)據(jù)樣本??呻S機提取數(shù)據(jù)樣本,或者可提取數(shù)據(jù)集的前N個條目或行、最后N 個條目、或中間N個條目,其中N為大于或等于1的整數(shù)。在另一實施例中,數(shù)據(jù)樣本可包括整個數(shù)據(jù)集。在310,評估數(shù)據(jù)樣本的格式。在一示例中,可對照模式來匹配數(shù)據(jù)樣本的每個值,以確定數(shù)據(jù)類型,例如字符串、數(shù)字、混合類型等,和/或可能的語義類型,例如,電話號碼、日期、合適的名詞等。例如,可將值確定為遵循諸如、MM-DD-YYYY等之類的至少一種格式的混合類型。因此,可確定數(shù)據(jù)樣本包括日期。在另一示例中,可標識值包括以大寫字母為開始的字符串,即,合適的名詞。在320,可基于所評估的格式來選擇至少一個基準數(shù)據(jù)集。在一些情形中,可從所評估的格式推斷準確的語義類型。例如,可從所評估的格式直接推斷與截然不同的格式相關(guān)聯(lián)的語義類型(例如,日期、時間、電話號碼等),并且可避免附加驗證(例如,值檢驗)。 然而,應(yīng)當(dāng)理解,甚至具有能被容易識別的格式的數(shù)據(jù)可與各種語義類型相關(guān)聯(lián)。例如,社會保險號、雇員標識號、雇主標識號等可在數(shù)據(jù)集中展現(xiàn)類似的表示。然而,由于此類不同數(shù)據(jù)具有不同的含義和上下文,因此進行進一步細化或驗證。由此,可選擇包括雇主標識號、雇員標識號等等的基準數(shù)據(jù)集。在另一方面,諸如字符串之類的其他格式可縮減可能語義類型池,但是不提供明確的解。因此,可選擇與經(jīng)縮減的可能語義類型池相對應(yīng)的一組基準數(shù)據(jù)集。例如,如果所評估的格式指示數(shù)據(jù)集包括合適的名詞,則可選擇合適的名詞的集合,例如,城市名稱、國家名稱、名字、姓、企業(yè)名稱等。圖4是圖解用于對照基準數(shù)據(jù)集檢查來自數(shù)據(jù)樣本的值的示例性非限制性實施例的流程圖。如上所討論的,作為格式檢驗的結(jié)果,可選擇基準數(shù)據(jù)集,或者作為交互式語義分析過程的部分,可由用戶選擇基準數(shù)據(jù)集。在400,從數(shù)據(jù)集中提取對應(yīng)于該數(shù)據(jù)集的一個或多個字段(例如,列)的數(shù)據(jù)樣本??呻S機提取數(shù)據(jù)的樣本,或者可提取數(shù)據(jù)集的前 N個條目或行、最后N個條目、或中間N個條目,其中N為大于或等于1的整數(shù)。在另一實施例中,數(shù)據(jù)的樣本可包括數(shù)據(jù)集的全部。在410,選擇來自數(shù)據(jù)樣本的值。在420,可查詢基準數(shù)據(jù)集以探知所選值是否被包括。在430,檢查是否返回查詢結(jié)果。若為是,則在440,遞增有效命中計數(shù)。若為否,或者在440進行遞增之后,在450,作出樣本中是否還剩余值的確定。若為是,則在410選擇另一值,并可重復(fù)步驟420-450。在460,可從有效命中計數(shù)標識驗證水平,例如,作為命中相對于樣本大小的百分比。另外,可基于驗證水平推斷例如樣本的語義類型之類的語義信息。在一實施例中,當(dāng)驗證水平達到或超過閾值時,可采用基準數(shù)據(jù)集的語義類型來作為從其提取樣本的數(shù)據(jù)集的語義類型。在特定的非限制性示例中,閾值可以是100%,以使得僅在所有值被驗證之時才采用語義類型。在另一示例中,當(dāng)驗證水平低于50%,則可將數(shù)據(jù)集自動分類為與基準數(shù)據(jù)集的語義類型無關(guān)。在又一示例中,當(dāng)驗證水平在50%與100%之間時,可提示用戶確認假設(shè)的數(shù)據(jù)集的語義類型。然而,還應(yīng)理解,可針對任何驗證水平或者并非100%的任何驗證
10水平來探尋此類用戶輸入。例如,數(shù)據(jù)集可能的確包含城市名稱,但是由于基準數(shù)據(jù)集的限制,具有低驗證水平,即,基準數(shù)據(jù)集不包含樣本中的城市名稱。用戶可覆蓋并確立城市名稱作為數(shù)據(jù)集的語義類型。進一步地,系統(tǒng)可用所習(xí)知的新的城市名稱來補充基準數(shù)據(jù)集。 這樣,系統(tǒng)可繼續(xù)學(xué)習(xí)并擴充其基準知識,以在將來提供越來越好的推論。圖5圖解了用于對與語義類型相關(guān)聯(lián)的值的集合執(zhí)行域檢查的示例性非限制性實施例的流程圖。在500,接收值集合,例如,數(shù)據(jù)集樣本或整個數(shù)據(jù)集,以及從值集合推斷的候選語義類型。在510,對照與候選語義類型相對應(yīng)的域規(guī)則來驗證值集合。例如,考慮地球緯度的語義類型。有效緯度的范圍可以是從+90°或90° N(例如,北極)到-90°或 90° S(例如,南極),其中0°對應(yīng)于赤道。值137超出有效范圍,并被標記為無效。在520, 將無效值呈現(xiàn)給用戶以便進行校正、接受、覆蓋、不予考慮等等。圖6是圖解從信息即服務(wù)系統(tǒng)中的所發(fā)布的數(shù)據(jù)集推斷語義信息的示例性非限制性動作的框圖。如圖6中所示的,信息服務(wù)610(例如,信息即服務(wù)系統(tǒng)或從任何平臺提供的作為服務(wù)的信息)可包括數(shù)據(jù)集612、數(shù)據(jù)集614和數(shù)據(jù)集616。在一實施例中,發(fā)布者(例如,內(nèi)容提供商)可將數(shù)據(jù)集發(fā)布到信息服務(wù)610,本質(zhì)上,關(guān)于形式?jīng)]有限制。由此,會從所發(fā)布的數(shù)據(jù)集錯失例如數(shù)據(jù)的含義和類型之類的語義信息。在這點上,圖6示出了語義分析組件620,該語義分析組件獲取信息服務(wù)610中的至少一個數(shù)據(jù)集的樣本數(shù)據(jù) 615,以基于其來推斷語義信息625。雖然圖6描繪了從數(shù)據(jù)集612提取樣本數(shù)據(jù)615,但是應(yīng)理解,出于解釋的目的,此類描繪僅僅是例示性和示例性的,且語義分析組件620可從數(shù)據(jù)集614和/或數(shù)據(jù)集616提取樣本數(shù)據(jù)615。在一實施例中,語義分析組件620可包括配置成實現(xiàn)各種推斷機制的各個組件。 例如,語義分析組件620可包括字段名稱檢查組件622,該字段名稱檢查組件被配置成實現(xiàn)樣本數(shù)據(jù)615中的字段名稱與具有已知語義信息的標簽集合之間的比較。進一步地,語義分析組件620可包括格式檢查組件624,該格式檢查組件6M被配置成標識和評估與樣本數(shù)據(jù)615相關(guān)聯(lián)的格式。在一個實施例中,格式可促進對值檢查組件616所采用的基準數(shù)據(jù)集的選擇,該值檢查組件6 被配置成對照與已知語義類型相對應(yīng)的一個或多個基準數(shù)據(jù)集來驗證樣本數(shù)據(jù)615中的值。在進一步實施例中,語義分析組件620可包括域檢查組件 628,該域檢查組件被配置成驗證樣本數(shù)據(jù)615中的值遵循與特定域類型相關(guān)聯(lián)的域規(guī)則。根據(jù)其中各個數(shù)據(jù)集中的信息混搭可基于語義信息來系統(tǒng)地生成的進一步實施例,圖7是圖解用于利用語義信息來將不同數(shù)據(jù)集進行關(guān)聯(lián)的示例性非限制性實施例的流程圖。在700,推斷第一數(shù)據(jù)集的至少一個字段的語義類型。例如,可在第一數(shù)據(jù)集上采用以上所描述的機制以確定至少一個字段的語義類型。在710,標識第二數(shù)據(jù)集的至少一個字段,其中該至少一個字段與相同的語義類型相關(guān)聯(lián)。例如,第一數(shù)據(jù)集可包括城市名稱字段,并且第二數(shù)據(jù)集的字段可被標識為也包括城市名稱。在720,可生成第一與第二數(shù)據(jù)集之間圍繞語義類型的關(guān)系信息,例如聯(lián)結(jié)。關(guān)系信息可被用來將不同數(shù)據(jù)集進行關(guān)聯(lián)。另外,關(guān)系信息可被用來查詢不同數(shù)據(jù)集,以從多個數(shù)據(jù)集獲得混合數(shù)據(jù)。圖8是圖解生成信息即服務(wù)系統(tǒng)中所提供的數(shù)據(jù)集之間的關(guān)系信息的示例性非限制性動作的框圖。如圖8中所示的,信息服務(wù)810(例如,信息即服務(wù)系統(tǒng)或從任何平臺提供的作為服務(wù)的信息)可包括數(shù)據(jù)集812、數(shù)據(jù)集814和數(shù)據(jù)集816。在非限制性且示例性的示例中,語義分析組件820可從一個或多個數(shù)據(jù)集提取樣本數(shù)據(jù)815,諸如數(shù)據(jù)集812和數(shù)據(jù)集816。語義分析組件820被配置成從提取自數(shù)據(jù)集812和數(shù)據(jù)集816的樣本數(shù)據(jù) 815推斷語義信息825。語義信息825可指定數(shù)據(jù)集812和數(shù)據(jù)集816中的一個或多個字段的語義類型或語義含義。在一實施例中,鏈接組件830被配置成基于語義信息825標識不同數(shù)據(jù)集中具有相同的語義類型的字段。例如,如由語義信息825所指示的,數(shù)據(jù)集812和數(shù)據(jù)集816可各自包括字段州名稱。鏈接組件830被配置成生成關(guān)系信息835,該關(guān)系信息按相應(yīng)字段州名稱將數(shù)據(jù)集812與數(shù)據(jù)集816進行關(guān)聯(lián)。根據(jù)其中可顯示數(shù)據(jù)集之間的關(guān)系的可視化的實施例中,圖9是圖解用于可視化信息即服務(wù)系統(tǒng)的數(shù)據(jù)集之間的關(guān)系的示例性非限制性實施例的流程圖。在900,獲得將多個數(shù)據(jù)集進行關(guān)聯(lián)的關(guān)系信息,例如,混搭。關(guān)系信息可指定多個數(shù)據(jù)集中可聯(lián)結(jié)這多個數(shù)據(jù)集的字段。在910,可基于關(guān)系信息生成可視化。在非限制性實施例中,可視化是具有表示數(shù)據(jù)集的節(jié)點以及表示數(shù)據(jù)集之間所標識的鏈接(例如,關(guān)聯(lián)或關(guān)系)的邊的圖。在 920,可將可視化顯示為用戶界面的部分。在930,經(jīng)由用戶界面接收輸入。輸入可與對由可視化傳達的關(guān)系信息的批準和不批準有關(guān)。在940,基于接收到的輸入來更新關(guān)系信息。圖10是圖解結(jié)合信息即服務(wù)系統(tǒng)的實施例生成數(shù)據(jù)集關(guān)系和混搭(mash-up)的可視化的示例性非限制性動作的框圖。如圖10中所示的,語義分析組件1020可從包括數(shù)據(jù)集1012、數(shù)據(jù)集1014和數(shù)據(jù)集1016的信息服務(wù)1010提取樣本數(shù)據(jù)1015。語義分析組件1020產(chǎn)生語義信息1025,該語義信息1025可被鏈接組件1030用來推斷關(guān)系信息1035。 在一實施例中,可將關(guān)系信息1035提供給配置成生成可視化1045的可視化組件1040。在進一步的實施例中,可視化組件1040可基于關(guān)系信息1035查詢信息服務(wù)1010,以獲取表示多個數(shù)據(jù)集的關(guān)聯(lián)的聯(lián)結(jié)數(shù)據(jù)1050。在一方面,聯(lián)結(jié)數(shù)據(jù)1050可被分開顯示,或者結(jié)合用戶界面中的可視化1045來顯示。圖11是結(jié)合信息即服務(wù)系統(tǒng)的實施例的數(shù)據(jù)集之間的關(guān)系的可視化的示例性非限制性例示??梢暬杀唤Y(jié)合到接受用戶輸入的用戶界面。在第一非限制性示例中,用戶可選擇可視化中的數(shù)據(jù)集以生成第一屏幕1100。如第一屏幕110中所示的,多個數(shù)據(jù)集被描繪為節(jié)點。用戶可選擇信用風(fēng)險節(jié)點(數(shù)據(jù)集)來生成可用混搭的可視化。如圖11中所示的,信用風(fēng)險數(shù)據(jù)集與消費者債務(wù)數(shù)據(jù)集和證券報價數(shù)據(jù)相關(guān)聯(lián)。在第一非限制性示例中,用戶可選擇房地產(chǎn)數(shù)據(jù)集以生成第二屏幕1102。如第二屏幕1102中所見的,房地產(chǎn)數(shù)據(jù)集與失業(yè)數(shù)據(jù)數(shù)據(jù)集、新聞數(shù)據(jù)集、以及另一數(shù)據(jù)集相關(guān)聯(lián)。在另一實施例中,用戶可選擇鏈接1104以取消或刪除關(guān)聯(lián)。結(jié)合作為服務(wù)的信息來構(gòu)建語義和訪問API以下描述包含用于結(jié)合作為服務(wù)的信息來構(gòu)建語義信息的替換性非限制性實施例。如所提及的,在信息即服務(wù)的上下文中,存在可在數(shù)據(jù)集中表示的有限數(shù)目個事物(例如,電話號碼、城市代碼、地址、城市、州、郵政編碼等),其可或者從列的名稱推斷或者通過對數(shù)據(jù)本身(例如,前1000個事物)進行加權(quán)匹配算法來推斷。對于重要數(shù)據(jù),雖然人類開始針對大量數(shù)據(jù)分類數(shù)據(jù),但是此類常規(guī)人類分類無法良好地縮放,且如果發(fā)布者重新發(fā)布具有不同語義的數(shù)據(jù),則人類表征可能已過時。因此,在各個實施例中,分析從對數(shù)據(jù)集進行查詢得到的隨機樣本,以確定是否可推斷數(shù)據(jù)的類型。例如,內(nèi)容提供商例如根據(jù)專有模式來提供一組拙劣描述的數(shù)據(jù)。基于或響應(yīng)于關(guān)于數(shù)據(jù)接收到的數(shù)據(jù)請求,可從數(shù)據(jù)集提取樣本集合,以應(yīng)用一組算法來推斷數(shù)據(jù)的語義含義,例如基于數(shù)據(jù)中的線索或列名稱、或其他列名稱推斷數(shù)據(jù)類型或列名稱。 由于發(fā)布者通常不希望發(fā)布的他或她的數(shù)據(jù)被更改,因此可由系統(tǒng)維護一組經(jīng)擴充的語義 (例如,映射)來描述由系統(tǒng)作出的推論,例如,對于較早的示例,_x=緯度。在這點上, 結(jié)果,下一開發(fā)者被給予更多地關(guān)于查詢此數(shù)據(jù)集的信息,在此情形中,可就具有經(jīng)度列的其他數(shù)據(jù)集執(zhí)行更多聯(lián)結(jié)、過濾等,并且另外,先前包括“_x(...) ”作為句法的部分的訪問 API目身可被更新為“l(fā)atitudeC··)(經(jīng)度(...))”,從而使得訪問API隨時間成為自描述的,以進一步幫助開發(fā)者。在一個示例中,經(jīng)由URL實現(xiàn)查詢API (例如,OData),關(guān)于其的信息可在以下找到。在一個實施例中,基于數(shù)據(jù)的已知分布(諸如給定人口的年齡跨度)的加權(quán)算法可被用來確定給定數(shù)據(jù)集或列名稱表示什么的概率,例如,確定浮點數(shù)字集合表示年齡。由此,在沒有使得比現(xiàn)狀更難以發(fā)布數(shù)據(jù)的情況下,可通過間接方式(例如,對語義映射的維護)來對內(nèi)容提供商實施諸如電話號碼和地址之類的某些慣例。這樣,內(nèi)容提供商被鼓勵來發(fā)布,但是消費者仍從數(shù)據(jù)上的一致性的意義上獲益。例如,電話號碼是數(shù)字數(shù)據(jù),其可被相對容易地標識為諸如區(qū)域碼括號、破折號等等(盡管存在變體)。通過基于推論的語義映射對此表征進行標準化使得除了隨時間采納訪問API變得越來越自描述(例如,將列“PN”重新命名為“電話號碼”或其他更描述性的)之外,開發(fā)者和訂戶對此數(shù)據(jù)的消費更容易。另外,發(fā)布者也可選擇參與。雖然在上傳時間發(fā)布者不需要參與,但是系統(tǒng)可作出推論,并要求發(fā)布者驗證推論,以使得可從開始展示映射信息和描述性訪問API。例如,當(dāng)系統(tǒng)推斷發(fā)布者正上傳工資信息時,系統(tǒng)可詢問發(fā)布者那是正被表示的凈工資還是薪資總額。經(jīng)擴充的語義使得先前無關(guān)的兩個較小的表能被聯(lián)結(jié)、合并、過濾等,其中推斷他們包含類似的表、列、數(shù)據(jù)類型等,而不管最初不同的語義。可使用各種算法來推斷關(guān)于語義的信息,例如,可使用加權(quán)匹配技術(shù),對查詢結(jié)果的子集的手動審閱,對查詢結(jié)果的子集的社區(qū)審閱(例如,類似Wikipedia批準),對數(shù)據(jù)質(zhì)量分數(shù)的指派,與數(shù)據(jù)分開地運送列的數(shù)據(jù)。如所提及的,除了推斷數(shù)據(jù)表示什么之外, 數(shù)據(jù)也可被“清除”。例如,可按許多不同的格式來表示時間,并且可知曉,給定列表示時間; 然而,結(jié)合跨數(shù)據(jù)集操作將此類不同的格式轉(zhuǎn)換成世界時間格式具有益處。如所討論的,電話號碼和地址是可跨不同的表示格式被標準化的信息的另一示例。而且,可從實際結(jié)果集中取出隨機樣本的子集來作出此類推斷,并且因此,系統(tǒng)可隨時間而改進,因為作出了附加查詢且樣本人群變得更多和更多樣。列的名稱可以是決定性或者也可以是信息性的,例如,如果列被命名為citcode (城市代碼),則系統(tǒng)本質(zhì)上知曉正表示了什么。可分級地應(yīng)用以上技術(shù)中的任一個或多個來推斷此類附加語義信息。在這點上,能夠通過訪問API調(diào)用的機制來達成此類語義更新——而非通過如發(fā)布者數(shù)據(jù)庫問題所發(fā)布的整體那樣檢查數(shù)據(jù)集來純粹地處理問題——在API調(diào)用開始反映所習(xí)知的信息時,在API調(diào)用的句法本身內(nèi)實現(xiàn)動態(tài)更新以及隨時間變得更準確的描述性的系統(tǒng)。如所討論的,可結(jié)合來自任何平臺的作為服務(wù)的信息經(jīng)由開放數(shù)據(jù)協(xié)議來通過 URL上傳數(shù)據(jù)。基于消費者正請求什么,可通過檢查命名數(shù)據(jù)的方式并基于返回的實際數(shù)據(jù)集來執(zhí)行對數(shù)據(jù)的推斷。結(jié)果,在下次有更好的名稱的情況下,API (由URL表示)被自動更新,以使得下次假定為http://dallas/. . . /_a(SEA)的查詢的語義可在下次被更好的理解為http://dallaS/. . . /City(Seattle)。換言之,保持在事實上通過URL請求和處理的數(shù)據(jù)上構(gòu)建邏輯語義不僅確定列之間的映射,還改進URL的語義或更一般地訪問API。用于信息即服務(wù)的補充上下文以下描述包含關(guān)于潛在非限制性基礎(chǔ)結(jié)構(gòu)、體系結(jié)構(gòu)和/或相關(guān)聯(lián)服務(wù)的補充上下文,以進一步幫助理解以上實施例中的一個或多個。在此章節(jié)中描述的任何附加特征中的任一個或多個可被納入到以上針對來自任何平臺的作為服務(wù)的信息就更新數(shù)據(jù)集語義和相對應(yīng)的訪問API描述的實施例中的任一個或多個中。雖然實施例或特征的此列組合是可能的,但是為了避免質(zhì)疑,在本公開中所闡述的實施例不應(yīng)當(dāng)被理解為對本文中所描述的任何其他實施例進行限制。作為一些附加背景,現(xiàn)今,雖然可通過諸如因特網(wǎng)之類的網(wǎng)絡(luò)獲得信息,但是現(xiàn)今的供應(yīng)傾向于在訪問和框架上的專有,并由此在第三方提供商參與方面進行限制。例如,目前,沒有足夠的企業(yè)模型來供商業(yè)內(nèi)容提供商以不放棄此類商業(yè)內(nèi)容的至少一些值的方式來發(fā)布其數(shù)據(jù),并且由此在歷史上,有價值的內(nèi)容的所有者傾向于通過有限的專有手段來展示其內(nèi)容?;蛘?,在其中此類內(nèi)容的存儲由安全云存儲提供商提供的情形中,當(dāng)消費者必需在數(shù)千個表中進行跋涉來潛在地找到感興趣的項目時,單獨存儲中存在很少的價值。另外,設(shè)置在云存儲提供商嘗試從各個提供商收集數(shù)據(jù)的情形中,最好此類提供商可包括適度、較小或不完全的數(shù)據(jù)目錄。大部分此區(qū)域中潛在增長的受阻是處理和IP(例如,版權(quán))上的不信任的結(jié)果。簡言之,大人物不信任具有王冠寶石(crown jewels)的云供應(yīng)商,因為單次損害會使數(shù)據(jù)的價值消亡。另外,此類云供應(yīng)商至今相對于出于其信息需要希望從這樣的數(shù)據(jù)中提取值的信息工作者處于弱勢,并且另外,由于這樣的系統(tǒng)的專有特性,開發(fā)者迄今具有的擴展用于開發(fā)信息能力的工具的能力有限。因此,以上針對一個或多個實施例描述的,提供了用于信息即服務(wù)的基礎(chǔ)結(jié)構(gòu),其容納所有個體類發(fā)布者、開發(fā)者、信息工作者、和消費者?;A(chǔ)結(jié)構(gòu)實現(xiàn)信息發(fā)現(xiàn),例如,用于發(fā)現(xiàn)、獲取、和消費結(jié)構(gòu)化和團塊數(shù)據(jù)集以加強任何平臺上的任何應(yīng)用和任何形狀因子 (例如,任何屏幕大小)的能力。該基礎(chǔ)結(jié)構(gòu)還實現(xiàn)經(jīng)紀業(yè)務(wù),例如,伙伴驅(qū)動的生態(tài)系統(tǒng)和全球到達(global reach),用以向開發(fā)者和信息工作者遞送數(shù)據(jù)和功能。基礎(chǔ)結(jié)構(gòu)還允許分析學(xué)和報告,例如,單個點擊分析,以用公共數(shù)據(jù)來增大私有數(shù)據(jù)。在這點上,由于基礎(chǔ)結(jié)構(gòu)的各種實現(xiàn)的開放特性,任何應(yīng)用開發(fā)者可開發(fā)移動、云、和/或桌面應(yīng)用,以促進數(shù)據(jù)的發(fā)布、處理、查詢和/或檢索。為了編寫應(yīng)用程序,人們可注冊帳戶信息(例如,用Live ID登錄)并被提供藉由其來經(jīng)由結(jié)構(gòu)化和實時web服務(wù)的訪問帳戶密鑰,該結(jié)構(gòu)化和實時web服務(wù)是針對本文中關(guān)于一個或多個實施例描述的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)啟用的。在一個方面,開發(fā)者可在編碼開始之前視覺地利用API。例如,服務(wù)資源管理器模塊或模塊組可被開發(fā)者用來視覺地構(gòu)建代表性狀態(tài)傳輸(REST)API查詢,并根據(jù)各種包來預(yù)覽內(nèi)容,這些包諸如但不限于可擴展標記語言(XML)、AT0M、RAW(用于團塊和實時內(nèi)容)、或者按表視圖(例如,用于結(jié)構(gòu)化數(shù)據(jù))。例如,開發(fā)者僅僅提供他或她的帳戶密鑰,并選擇來預(yù)覽內(nèi)容。
因此,開發(fā)者可在任何平臺上構(gòu)建移動、桌面或服務(wù)應(yīng)用程序。雖然結(jié)果REST查詢可被拷貝到新的開發(fā)者應(yīng)用程序,信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)還實現(xiàn)這樣的能力該能力是用于消耗自動生成的C#代理類以排除任何創(chuàng)建本地對象模型或者生成和理解XML或web 服務(wù)代碼的細節(jié)的需要。在這點上,在另一非限制性的有益方面,開發(fā)者可下載代理類,并將它們包括在開發(fā)者的應(yīng)用程序中以通過少至幾行代碼來消耗服務(wù)數(shù)據(jù)。在這點上,信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)的各個實施例允許開發(fā)者和信息工作者即時地、周期性地、或在由應(yīng)用程序開發(fā)者所指定的其他時間函數(shù)上尋找、獲取、和消耗其應(yīng)用程序和分析情景中的數(shù)據(jù)。如所提及的,開發(fā)者獲得帳戶密鑰,該帳戶密鑰隨后伴隨web服務(wù)調(diào)用網(wǎng)絡(luò)服務(wù),從而使得如本文中關(guān)于一個或多個實施例所描述的信息即服務(wù)能夠進行內(nèi)容請求以及訂閱感興趣的內(nèi)容。因而,在一個方面,由本文中關(guān)于一個或多個實施例所描述的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)所提供的帳戶密鑰是開發(fā)者的私有密鑰。此密鑰使得能夠?qū)Y(jié)合開發(fā)者的應(yīng)用程序來使用的內(nèi)容進行記賬和報告。由此,此私有開發(fā)者密鑰應(yīng)當(dāng)不打算被進行共享,并且應(yīng)當(dāng)采取確保密鑰安全的預(yù)防措施,其中開發(fā)在移動或桌面解決方案上運行的本地應(yīng)用程序并計劃結(jié)合密鑰作為部署的部分。例如,密碼存儲可被用來確保密鑰未被破解。除了被用于跟蹤消耗內(nèi)容的應(yīng)用程序的帳戶密鑰之外,唯一性用戶ID是全局唯一性標識符(GUID),其表示開發(fā)者的個體用戶。此字段允許對內(nèi)容進行記賬,其是按程序以每個用戶為基礎(chǔ)進行收費的。例如,如果開發(fā)者開發(fā)移動應(yīng)用程序,且個體用戶使用該應(yīng)用程序,開發(fā)者在每次代表個體用戶作出請求時應(yīng)當(dāng)返回相同的GUID。然而,如果開發(fā)者開發(fā) web門戶,并代表各個用戶發(fā)出web服務(wù)請求,則由開發(fā)者向訪問門戶的每個唯一性用戶來指派新的⑶ID。例如,每個注冊用戶可被指派⑶ID或者每個IP地址/端口組合指派唯一性用戶ID GUID等。雖然可在任何平臺上構(gòu)建REST API來從如對本文中的一個或多個實施例描述的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)消費內(nèi)容,在一個實施例中,可通過C#為服務(wù)動態(tài)生成代理類。達成此目的是下載目標模型、將他們添加到當(dāng)前開發(fā)者項目、以及更新帳戶和唯一性用戶值的問題。如果開發(fā)者想要手動發(fā)出請求,以下提供了一示例,但是對于任何服務(wù),可使用預(yù)覽功能,或者也可調(diào)用從服務(wù)資源管理器創(chuàng)建的URL。以下例示了對樣本數(shù)據(jù)集的示例性非限制性REST請求。注意一些或全部調(diào)用會是安全套接字層(SSL)安全的。https://api. sqlazureservices. com/UnService. svc/UNESCO(120)在請求的頭部中放置了 $accountKey和$uniqueUserId元素,例如,其看起來如下$accountKey = {developer account key (開發(fā)者帳戶密鑰)} $uniqueUserID = {a GUID representing the user (表示用戶的 GUID)}$accountKey中的值表示開發(fā)者的帳戶密鑰——在帳戶標簽中找到,而 SuniqueUserID中的值表示訪問服務(wù)的用戶的⑶ID。本文中描述的REST API提供了用于從所描述的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)訪問和消耗內(nèi)容的示例性非限制性協(xié)議??梢岳斫?,可采用其他協(xié)議,諸如用于web服務(wù)訪問的簡單對象訪問協(xié)議(SOAP),或用于內(nèi)部部署訪問和分析的表格數(shù)據(jù)流(TDS)。
15
以上示例認證辦法是非限制性性的,因為其他認證辦法也是可能的,并且由此本文中描述的各個實施例可實現(xiàn)任何替換性認證辦法。例如,基本授權(quán)(RFC 1945),其中帳戶密鑰作為口令,或者使用基于令牌的辦法的接入控制服務(wù)器(ACS),或者也可使用其他基于令牌的辦法。因此,如對本文中的一個或多個實施例描述的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)是新的服務(wù)或框架,其允許開發(fā)者和信息工作者簡單地發(fā)現(xiàn)、購買、和管理任何平臺中的優(yōu)質(zhì) (premium)數(shù)據(jù)訂閱?;A(chǔ)結(jié)構(gòu)是信息市場,其將來自領(lǐng)先商業(yè)數(shù)據(jù)提供商和權(quán)威公共數(shù)據(jù)源以及非權(quán)威發(fā)布者的數(shù)據(jù)、圖像、實時web服務(wù)一起帶入單個或多個位置,這些位置是在公共供應(yīng)和記賬框架下統(tǒng)一的。另外,開發(fā)者和信息工作者可基本上通過任何平臺、應(yīng)用和業(yè)務(wù)工作流來消費此優(yōu)質(zhì)內(nèi)容。用于使用本文中關(guān)于一個或多個實施例描述的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)的一些示例性非限制性的情景包括(a)找到對于消費者和商業(yè)場景的下一代“殺手應(yīng)用”的優(yōu)質(zhì)內(nèi)容,(b)發(fā)現(xiàn)并許可有價值數(shù)據(jù),以改進現(xiàn)有應(yīng)用程序或報告;(c)以創(chuàng)新方式將不同數(shù)據(jù)集集合在一起,以獲得對企業(yè)性能和過程的新了解,例如,聚集算法;(d)針對團塊、結(jié)構(gòu)化或?qū)崟rweb服務(wù),即時并可視地探索跨所有內(nèi)容提供商的API ;以及(e)消耗現(xiàn)有應(yīng)用程序和數(shù)據(jù)庫系統(tǒng)(諸如現(xiàn)有文字處理、電子表格、數(shù)據(jù)庫查詢系統(tǒng)等)內(nèi)的第三方數(shù)據(jù),以進行豐富的報告和分析。對于開發(fā)者而言,益處包括(a)試用訂閱允許在無需對數(shù)據(jù)使用稅付費的情況下調(diào)查內(nèi)容并開發(fā)應(yīng)用程序;(b)簡單的交易和訂閱模型允許對數(shù)百萬美元的數(shù)據(jù)集進行 “現(xiàn)用現(xiàn)付”訪問;(c)基于跨數(shù)據(jù)集的API的一致的REST促進任何平臺上的開發(fā);(d)視覺地構(gòu)建和探索API,預(yù)覽結(jié)果;以及(e)自動C#代理類提供即時對象模型并排除編寫冗長XML和web服務(wù)代碼的需要。對于信息工作者而言,益處包括(a)與PowerPivot整合,以便容易地與現(xiàn)有電子表格軟件中的數(shù)據(jù)一起工作,該現(xiàn)有電子表格軟件包括但不限于Excel ;(b)用于獲得內(nèi)容的簡單、可預(yù)測的許可模型;以及用于從SQL服務(wù)器、SQL Azure數(shù)據(jù)庫、以及其他預(yù)先存在的資產(chǎn)消費數(shù)據(jù)的能力。對于內(nèi)容伙伴而言,益處包括(a)容易的發(fā)布和板上加工,而不用管團塊數(shù)據(jù)、 結(jié)構(gòu)化數(shù)據(jù)、或動態(tài)web服務(wù);(b)開發(fā)者經(jīng)由Visual Studio和.NET或其他運行時系統(tǒng)開發(fā)來對所選平臺進行加工以使得開發(fā)變得容易;(c)將開發(fā)者內(nèi)容展示給全局開發(fā)者和信息工作者社區(qū);(d)預(yù)先存在的內(nèi)容消耗和應(yīng)用程序內(nèi)的內(nèi)容發(fā)現(xiàn)和整合;以及(e)可縮放云計算平臺代表所有方處理存儲、遞送、記賬和報告。在本文中關(guān)于一個或多個實施例描述的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)的非限制性實現(xiàn)中,豐富的web服務(wù)的一些特征包括(a)確保用于消費整體內(nèi)容目錄上的服務(wù)的基于REST 的模型安全;(b)構(gòu)建到API中以簡化訪問的動態(tài)分頁;(c)標準ATOM 1. O訂閱源可用于大多數(shù)服務(wù);以及(d)跨所有服務(wù)上的一致的記賬、供應(yīng)和試用報告。在本文中關(guān)于一個或多個實施例描述的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)的非限制性實現(xiàn)中,服務(wù)資源管理器的一些特征包括(a)C#代理類,其被生成來簡化開發(fā);(b)對表格形式的數(shù)據(jù)的預(yù)覽并且作為諸如ATOM 1. O訂閱源(若支持)之類的訂閱源;(c)對服務(wù)的調(diào)用,用以理解經(jīng)編譯的服務(wù)調(diào)用返回的結(jié)果;(d)對文檔以及每個參數(shù)的樣本值的發(fā)現(xiàn);以及(e)對服務(wù)調(diào)用的視覺構(gòu)建的URL的即時拷貝到剪貼板以使開發(fā)變得容易。在本文中關(guān)于一個或多個實施例描述的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)的非限制性實現(xiàn)中,市場整合和發(fā)現(xiàn)門戶組件的一些特征包括(a)跨包括消費者和企業(yè)的域發(fā)現(xiàn)新數(shù)據(jù); (b)對服務(wù)訂閱和使用限制的管理;(c)對用于訪問服務(wù)的帳戶密鑰的管理;以及(d)詳細的訪問報告,包含按日期和按帳戶密鑰訪問、編組的服務(wù)/數(shù)據(jù)集?;A(chǔ)結(jié)構(gòu)向內(nèi)容提供商、應(yīng)用程序開發(fā)者/ISV以及向信息工作者和其他消費者/ 訂戶提供各種有價值的建議。對于內(nèi)容所有者,除針對不對數(shù)據(jù)進行收費但以其他方式從此類數(shù)據(jù)的發(fā)布得到益處的數(shù)據(jù)提供商的社會效益之外,基礎(chǔ)結(jié)構(gòu)(為對數(shù)據(jù)進行收費的數(shù)據(jù)提供商)實現(xiàn)從數(shù)據(jù)進行貨幣化。由于基礎(chǔ)結(jié)構(gòu)的開放性,內(nèi)容提供商享受數(shù)據(jù)對于 ISV和消費者/信息工作者的更大的可用性以及抵達性,并且所有這些都是以較低的代價得到的,尤其是通過如過去一樣開發(fā)專有模型。對于應(yīng)用程序開發(fā)者/ISV,基礎(chǔ)結(jié)構(gòu)實現(xiàn)以一致的格式訪問數(shù)據(jù)、用于數(shù)據(jù)訪問的可變且低成本定價模型、可預(yù)測定價、來自采用使用數(shù)據(jù)構(gòu)建的應(yīng)用程序的消費者/IW 的得益潛力、通過任何平臺和單個記賬和數(shù)據(jù)源的對消費者的更廣抵達。對于信息工作者/消費者,基礎(chǔ)結(jié)構(gòu)實現(xiàn)來自除單個記賬和數(shù)據(jù)源之外的應(yīng)用程序、對當(dāng)前較大對象(LOB)或IW軟件中的數(shù)據(jù)的消耗、用于數(shù)據(jù)訪問的可變和低成本定價模型的附加的價值。因此,基礎(chǔ)結(jié)構(gòu)通過潛在相當(dāng)可觀的收入上升解決當(dāng)前消費者和開發(fā)者痛點,通過鼓勵數(shù)據(jù)所有者經(jīng)由基礎(chǔ)結(jié)構(gòu)存儲其數(shù)據(jù)來創(chuàng)建附帶有用于建模、報告、分析和趨向的即時數(shù)據(jù)的唯一性企業(yè)智能機會,以及創(chuàng)建對任何平臺的采納和附著,由此鑒別基礎(chǔ)結(jié)構(gòu)的有價值的建議(在與常規(guī)云存儲環(huán)境相比時)。如圖12的流程圖中所示的,在1200,本文所描述的是供內(nèi)容所有者或發(fā)布者來經(jīng)由基礎(chǔ)結(jié)構(gòu)發(fā)布數(shù)據(jù)的各種方式。在1210,存在允許開發(fā)者開發(fā)用于經(jīng)由基礎(chǔ)結(jié)構(gòu)消費數(shù)據(jù)的應(yīng)用程序的各種工具。在1220,消費者或信息工作者使用應(yīng)用程序或者可直接對數(shù)據(jù)進行查詢以消費數(shù)據(jù)。最后,在1230,基礎(chǔ)結(jié)構(gòu)提供豐富的各種工具,這些工具能代表由交易模型啟用的內(nèi)容鏈中的所有方來實現(xiàn)自動管理、審計、記賬等。在這點上,基礎(chǔ)結(jié)構(gòu)中的一些密鑰方包括數(shù)據(jù)所有者、應(yīng)用程序開發(fā)者/ISV、和消費者/信息工作者。一般而言,數(shù)據(jù)所有者是希望對數(shù)據(jù)收費的各方的實體,或者出于其他原因想要免費提供數(shù)據(jù)或?qū)?shù)據(jù)實施其他條件的各方的實體。進而,應(yīng)用程序開發(fā)者/ISV 是希望對其應(yīng)用程序進行貨幣化(例如,通過廣告、直接支付、間接支付等)或出于一些利益原因向這類各方免費提供其應(yīng)用程序的實體。信息工作者和消費者是可使用原始數(shù)據(jù)的那些人,或者是希望使用由應(yīng)用程序開發(fā)者提供的應(yīng)用程序的那些人。圖13是一般地示出可參與到提供本文所描述的信息即服務(wù)的生態(tài)系統(tǒng)中的各方的框圖。例如,取決于數(shù)據(jù)的敏感性或其他特性,一組網(wǎng)絡(luò)可訪問信息服務(wù)1300提供對各
種獲信任或未獲信任的數(shù)據(jù)存儲1310的訪問。如圖所示,因而,數(shù)據(jù)存儲1312、1314.....
1316是什么類型并非是如此重要的,因為生態(tài)系統(tǒng)支持任何類型的數(shù)據(jù)、團塊、結(jié)構(gòu)化、非結(jié)構(gòu)化等。如所提及的,系統(tǒng)包括將數(shù)據(jù)添加到生態(tài)系統(tǒng)的發(fā)布者1320,消費數(shù)據(jù)的訂戶 1330,以及通過其應(yīng)用程序幫助消費數(shù)據(jù)的應(yīng)用程序開發(fā)者或提供者1350。訪問信息生成器1370也可通過維護或?qū)嵤粜畔?、密鑰信息等來管理各方對數(shù)據(jù)的訪問。在這點上,內(nèi)容所有者1360可橫跨任意角色,因為內(nèi)容所有者1360也可以是發(fā)布者1320、訂戶1330、 和/或應(yīng)用程序開發(fā)者。在一個方面,所有方的公共基礎(chǔ)結(jié)構(gòu)針對基礎(chǔ)結(jié)構(gòu)上發(fā)生的數(shù)據(jù)交易實現(xiàn)管理1365、審計1375、記賬1375以及其他所需輔助服務(wù)。在這點上,用于實現(xiàn)來自任何平臺的作為服務(wù)的信息的用戶友好數(shù)據(jù)平臺的各個實施例是用于使得數(shù)據(jù)的消費者(IW、開發(fā)者、ISV)和數(shù)據(jù)的消費者能以簡單、成本效率和方便的方式進行交易的基礎(chǔ)結(jié)構(gòu)?;A(chǔ)結(jié)構(gòu)以負擔(dān)得起的方式民主化優(yōu)質(zhì)(私有)和社區(qū) (公共)數(shù)據(jù),以允許IW將快速洞悉,允許開發(fā)者以創(chuàng)造性的方式使用多個數(shù)據(jù)源構(gòu)建革新應(yīng)用,并使得開發(fā)者能夠?qū)ζ湓谌魏纹脚_上的努力進行貨幣化。例如,基礎(chǔ)結(jié)構(gòu)支持按使用付費以及對內(nèi)容的訂閱定價、對內(nèi)容的支付(“零售價”一由內(nèi)容所有者設(shè)置)、支付數(shù)據(jù)費(“運送和處理”)和BW、以及進一步支持數(shù)據(jù)費按照以每次邏輯交易為基礎(chǔ)(每個報告、每個API、每次下載等)的經(jīng)紀人費用。對于信息工作者(例如,Office、SQL服務(wù)器、動態(tài)用戶),該基礎(chǔ)結(jié)構(gòu)支持訂閱以允許將來的EA整合以及可預(yù)測的花費需要(以及高速緩存以支持場所內(nèi)和場所外BI以及 “HPC”工作負載)。因而,替換方案包括每用戶每月定價的內(nèi)容;其可以被捆綁或可以不被捆綁來遞送內(nèi)容包,或者每交易定價,例如允許云報告/企業(yè)智能按需定價,以在允許每次使用定價、或經(jīng)由報告圖庫的垂直應(yīng)用程序同時排除移動大量數(shù)據(jù)的需要。對于內(nèi)容提供商(任何數(shù)據(jù)類型;任何云),在使用任何平臺的情況下,基礎(chǔ)結(jié)構(gòu)變成有價值的建議,以激勵任何特定所需平臺內(nèi)的銷售;在沒有附加代價下的自動縮放的、 較高層SLA概率。對于一些非限制性示例,數(shù)據(jù)可以是安全的,并且可以是以下域中的相關(guān)聯(lián)數(shù)據(jù)位置知曉服務(wù)和數(shù)據(jù)、商業(yè)和住宅房地產(chǎn)、財務(wù)數(shù)據(jù)和服務(wù)等。非限制性情景可包括將數(shù)據(jù)遞送到排名前30的非政府組織(NGO)數(shù)據(jù)集。另外,基礎(chǔ)結(jié)構(gòu)可包括通過“用于信息即服務(wù)的bing (必應(yīng))”、HPC等來突出展示BI和可視化的能力。也存在垂直應(yīng)用程序機會。在一個非限制性實施例中,可將數(shù)據(jù)傭金與常規(guī)實體策略作類比例如,容量可被表示為架空間(例如,結(jié)構(gòu)化和非結(jié)構(gòu)化/團塊數(shù)據(jù)的混合)、貨物的成本(COGS)可被表示為平方英尺、(SA、平臺依賴性、帶寬)和內(nèi)容可被表示為商品(例如,最優(yōu)化內(nèi)容提供商以覆蓋COGS、最大化來自IW和開發(fā)者的利潤)。在各個實施例中,板上加工可通過數(shù)據(jù)和服務(wù)的質(zhì)量條以及容納服務(wù)級協(xié)議(SLA)來實現(xiàn)。圖14是以上根據(jù)一個或多個特征描述的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)1410的示例性非限制性實現(xiàn)。交互側(cè)是可經(jīng)由基于SSL/REST的API 1406與基礎(chǔ)結(jié)構(gòu)通信的信息工作者 1400、開發(fā)者1402和消費者1404。負載平衡器1408可被用來以最佳方式幫助操縱通信量。 在這點上,輸入被路由至門戶web角色1420或API web角色1422。從基礎(chǔ)結(jié)構(gòu)1410到數(shù)據(jù)側(cè)是用于訪問團塊數(shù)據(jù)集1442、或云存儲框架1440的團塊數(shù)據(jù)集1455或關(guān)系數(shù)據(jù)庫框架1450的附加負載平衡1似4或1似6 (例如,WA或SA)。代理層14 可被用來訪問第三方云1460的數(shù)據(jù)1462或數(shù)據(jù)1464。內(nèi)容數(shù)據(jù)抽象層(DAL) 1430可被用于訪問在其中可適用的內(nèi)容。在這點上,可以有跨不同類型的存儲的數(shù)據(jù)集的復(fù)制或重疊,例如,相同數(shù)據(jù)可被表示為團塊數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),例如,SQL。作為對數(shù)據(jù)的補充服務(wù),記賬和發(fā)現(xiàn)服務(wù)1470可包括在線記賬1472 (例如,M0CP) 或發(fā)現(xiàn)服務(wù)1474 (例如,定位),并且認證服務(wù)1480可包括憑證管理1482 (例如,Live ID)或內(nèi)容認證1484,例如,經(jīng)認證的內(nèi)容服務(wù)(ACS)。帳戶服務(wù)1490可包括日志記錄/審計服務(wù)1486或帳戶管理1488。管理和操作服務(wù)1492可包括操作儀表盤服務(wù)1494和網(wǎng)絡(luò)操作服務(wù)1496,例如Gomez。圖15是示出根據(jù)用于實現(xiàn)信息即服務(wù)的一般基礎(chǔ)結(jié)構(gòu)的一個或多個實施例的從數(shù)據(jù)到數(shù)據(jù)的消費者的示例性端對端流。例如,作為服務(wù)的信息1500可包括商業(yè)數(shù)據(jù)1502 和免費數(shù)據(jù)1504,其可以是各種為了營利性開發(fā)者1510、具有非利益動機的非營利性開發(fā)者以及出于生產(chǎn)目的而對消費數(shù)據(jù)感興趣的其他信息工作者所感興趣的。這些實體可適用
發(fā)現(xiàn)服務(wù)1520來確定什么應(yīng)用程序1522、15 .....1526可能是他們所感興趣的,以及最
終將數(shù)據(jù)傳送給ILA消費者1530和DLA消費者1532。開放數(shù)據(jù)協(xié)議本領(lǐng)域的技術(shù)人員可以理解,網(wǎng)絡(luò)交互和信息服務(wù)可以用各種計算機系統(tǒng)配置和協(xié)議來實施。在這點上,可在本文中所描述的一個或多個實施例中使用的用于查詢和更新數(shù)據(jù)的一種非限制性實現(xiàn)是開放數(shù)據(jù)協(xié)議(OData)。OData是用于查詢和更新數(shù)據(jù)的web協(xié)議。OData應(yīng)用諸如超文本傳輸協(xié)議 (HTTP)、原子發(fā)布協(xié)議(AtomPub)和JavMcript對象符號(JSON)之類的web技術(shù),以提供從各種應(yīng)用程序、服務(wù)和存儲訪問信息。對于一些通用的背景,OData是基于過去幾年里在各種產(chǎn)品中實現(xiàn)AtomPub客戶機和服務(wù)器的經(jīng)驗來有機地出現(xiàn)的。Odata可被用于從各個源展示和訪問信息,這些源包括但不限于關(guān)系數(shù)據(jù)庫、文件系統(tǒng)、內(nèi)容管理系統(tǒng)、和傳統(tǒng)web 站點。已在開放規(guī)范承諾下發(fā)布了 OData,以允許任何人來與OData實現(xiàn)自由地交互操作, 以便鼓勵生態(tài)系統(tǒng)的成長。也可將OData結(jié)合到其他協(xié)議,以形成具有用于查詢和更新網(wǎng)絡(luò)數(shù)據(jù)的類似功能的混合協(xié)議。OData與web工作的方式相一致。在一個方面,OData使用同一資源定位符(URL) 來作為標識資源的方式,并使用HTTP中心協(xié)議,該協(xié)議具有用于與那些源交互的統(tǒng)一接口,例如,類似于因特網(wǎng)工作的方式。在一個非限制性方面,在由AtomPub普及的HTTP上的規(guī)約之上構(gòu)建OData,這簡化了跨獨立開發(fā)的系統(tǒng)共享數(shù)據(jù)、內(nèi)容和信息的過程。OData定義附加規(guī)約,諸實現(xiàn)可任選地實現(xiàn)這些附加規(guī)約來支持基本查詢和要交換的模式信息。為了簡化與HTML和Javakript客戶機的整合,OData定義補充基于XML的AtomPub格式的協(xié)議的任選JSON表示。如可以理解的,可在www. odata. org上找到關(guān)于OData協(xié)議的附加實現(xiàn)細節(jié)或其他詳細情況。示例性聯(lián)網(wǎng)和分布式環(huán)境本領(lǐng)域普通技術(shù)人員可以理解,此處所描述的用于來自任何平臺的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)的方法和設(shè)備的各個實施例以及本文中描述的相關(guān)實施例可以結(jié)合任何計算機或其它客戶端或服務(wù)器設(shè)備來實現(xiàn),該任何計算機或其它客戶端或服務(wù)器設(shè)備可作為計算機網(wǎng)絡(luò)的一部分來部署或者被部署在分布式計算環(huán)境中,并且可以連接到任何種類的數(shù)據(jù)存儲。就此,此處所描述的各實施例可以在具有任意數(shù)量的存儲器或存儲單元以及出現(xiàn)在任意數(shù)量的存儲單元上的任意數(shù)量的應(yīng)用程序和進程的任何計算機系統(tǒng)和環(huán)境中實現(xiàn)。這包括但不限于具有部署在具有遠程或本地存儲的網(wǎng)絡(luò)環(huán)境或分布式計算環(huán)境中的服務(wù)器計算機和客戶計算機的環(huán)境。附圖16提供了示例性聯(lián)網(wǎng)或分布式計算環(huán)境的非限制性性示意圖。該分布式計算環(huán)境包括計算對象或設(shè)備1610、1612等以及計算對象或設(shè)備1620、1622、16M、1626、 1628等,這些計算對象或設(shè)備可包括如由應(yīng)用1630、1632、1634、1636、1638表示的程序、方法、數(shù)據(jù)存儲、可編程邏輯等??梢岳斫?,計算對象或設(shè)備1610、1612等以及計算對象或設(shè)備1620、1622、1624、1626,1628等可包括不同的設(shè)備,諸如PDA、音頻/視頻設(shè)備、移動電話、 MP3播放器、膝上型計算機等。每個計算對象或設(shè)備1610、1612等以及計算對象或設(shè)備1620、1622、16M、1626、 1628等可經(jīng)由通信網(wǎng)絡(luò)1640或直接或間接地與一個或多個其他計算對象或設(shè)備1610、 1612等以及計算對象或設(shè)備1620、1622、1624、1626,1628等通信。即使在圖16中被示為單個元件,但網(wǎng)絡(luò)1640可包括向圖16的系統(tǒng)提供服務(wù)的其他計算對象或解釋設(shè)備,和/或可表示未示出的多個互連網(wǎng)絡(luò)。每個計算對象或設(shè)備1610、1612等或1620、1622、1624、1626、 1628等還可包含諸如應(yīng)用程序1630、1632、1634、1636、1638之類的應(yīng)用程序,該應(yīng)用程序可利用API或適用于與根據(jù)各實施例提供的來自任何平臺的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)進行通信或?qū)崿F(xiàn)這種基礎(chǔ)結(jié)構(gòu)的其他對象、軟件、固件和/或硬件。存在支持分布式計算環(huán)境的各種系統(tǒng)、組件和網(wǎng)絡(luò)配置。例如,計算系統(tǒng)可以由有線或無線系統(tǒng)、本地網(wǎng)絡(luò)或廣泛分布的網(wǎng)絡(luò)連接在一起。當(dāng)前,許多網(wǎng)絡(luò)被耦合至因特網(wǎng), 后者為廣泛分布的計算提供了基礎(chǔ)結(jié)構(gòu)并包含許多不同的網(wǎng)絡(luò),但任何網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)可用于變得與如各實施例中所描述的技術(shù)相關(guān)聯(lián)的示例性通信。由此,可以利用諸如客戶機/服務(wù)器、對等、或混合體系結(jié)構(gòu)的大量的網(wǎng)絡(luò)拓撲結(jié)構(gòu)和網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)。在客戶機/服務(wù)器體系結(jié)構(gòu)中,尤其在聯(lián)網(wǎng)系統(tǒng)中,客戶機通常是訪問由例如服務(wù)器的另一計算機提供的共享的網(wǎng)絡(luò)資源的計算機。在附圖16的圖示中,作為非限制性性示例,計算對象或設(shè)備1620、1622、1624、1626,1628等可被認為是客戶機和計算對象,或者設(shè)備1610、1612等可被認為是服務(wù)器,其中計算對象或設(shè)備1610、1612等提供數(shù)據(jù)服務(wù),諸如從計算對象或設(shè)備1620、1622、1624、1626,1628等接收數(shù)據(jù)、存儲數(shù)據(jù)、處理數(shù)據(jù)、向計算對象或設(shè)備1620、1622、16M、1626、16 發(fā)送數(shù)據(jù)等,但任何計算機都可取決于環(huán)境而被認為是客戶機、服務(wù)器或兩者。這些計算設(shè)備中的任一個可以處理數(shù)據(jù),或請求可指示如此處參考一個或多個實施例描述的來自任何平臺的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)以及相關(guān)技術(shù)的服務(wù)或任務(wù)。服務(wù)器通常是可通過諸如因特網(wǎng)或無線網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)的遠程網(wǎng)絡(luò)或本地網(wǎng)絡(luò)可訪問的遠程計算機系統(tǒng)。客戶機進程在第一計算機系統(tǒng)中可以是活動的,而服務(wù)器進程在第二計算機系統(tǒng)中可以是活動的,它們通過通信介質(zhì)彼此通信,從而提供分布式功能并允許多個客戶機利用服務(wù)器的信息收集能力。按照用戶簡檔來利用的任何軟件對象可以單獨提供或跨多個計算設(shè)備或?qū)ο蠓植?。例如,在其中通信網(wǎng)絡(luò)/總線1640是因特網(wǎng)的網(wǎng)絡(luò)環(huán)境中,計算對象或設(shè)備1610、 1612等可以是計算對象或設(shè)備1620、1622、1624、1626,1628等經(jīng)由諸如HTTP等多種已知協(xié)議中的任一種與其通信的web服務(wù)器。如所提及的,計算對象或設(shè)備1610、1612等還可用作計算對象或設(shè)備1620、1622、1624、1626,1628等,或者相反,這可以是分布式計算環(huán)境的特性。示例性計算設(shè)備如所提到的那樣,此處描述的各實施例適用于其中可能期望實現(xiàn)來自任何平臺的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)的的一個或多個部分的任何設(shè)備。因此,應(yīng)當(dāng)理解,構(gòu)思了結(jié)合此處描述的各實施例使用的手持式、便攜式和其它計算設(shè)備和計算對象,即在設(shè)備可以結(jié)合來自任何平臺的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)來提供某些功能的任何地方。因此,在下面的圖17中描述的以下通用遠程計算機僅是一個示例,且所公開的主題的各實施例可用具有網(wǎng)絡(luò)/總線互操作性和交互的任何客戶端來實現(xiàn)。盡管并不是必需的,但各實施例的任意一個可以部分地經(jīng)由操作系統(tǒng)來實現(xiàn),以供設(shè)備或?qū)ο蟮姆?wù)開發(fā)者使用,和/或被包括在結(jié)合可操作組件來操作的應(yīng)用軟件中。 軟件可以在由諸如客戶機工作站、服務(wù)器或其他設(shè)備等一個或多個計算機執(zhí)行的諸如程序模塊等計算機可執(zhí)行指令的通用上下文中描述。本領(lǐng)域的技術(shù)人員可以理解,網(wǎng)絡(luò)交互可以用各種計算機系統(tǒng)配置和協(xié)議來實施。因此,圖17示出了其中可實現(xiàn)一個或多個實施例的合適的計算系統(tǒng)環(huán)境1700的一個示例,但是上面已經(jīng)弄清楚,計算系統(tǒng)環(huán)境1700僅為合適的計算環(huán)境的一個示例,并且不旨在對各實施例中的任意一個的使用范圍或功能提出任何限制。也不應(yīng)該將計算環(huán)境 1700解釋為對示例性操作環(huán)境1700中示出的任一組件或其組合有任何依賴性或要求。參考圖17,用于實現(xiàn)此處的一個或多個實施例的示例性遠程設(shè)備可以包括手持式計算機1710形式的通用計算設(shè)備。手持式計算機1710的組件可以包括但不限于處理單元1720、系統(tǒng)存儲器1730和將包括系統(tǒng)存儲器在內(nèi)的各種系統(tǒng)組件耦合至處理單元1720 的系統(tǒng)總線1721。計算機1710通常包括各種計算機可讀介質(zhì),并可以是可由計算機1710訪問的任何可用介質(zhì)。系統(tǒng)存儲器1730可以包括諸如只讀存儲器(ROM)和/或隨機存取存儲器 (RAM)等易失性和/或非易失性存儲器形式的計算機存儲介質(zhì)。作為示例而非限制性,存儲器1730還可以包括操作系統(tǒng)、應(yīng)用程序、其他程序模塊、和程序數(shù)據(jù)。用戶可以通過輸入設(shè)備1740向計算機1710輸入命令和信息。監(jiān)視器或其他類型的顯示設(shè)備也經(jīng)由接口,諸如輸出接口 1750連接至系統(tǒng)總線1721。除監(jiān)視器之外,計算機還可以包括其他外圍輸出設(shè)備,如揚聲器和打印機,它們可以通過輸出接口 1750連接。計算機1710可使用至一個或多個遠程計算機,諸如遠程計算機1770的邏輯連接在聯(lián)網(wǎng)或分布式環(huán)境中操作。遠程計算機1770可以是個人計算機、服務(wù)器、路由器、網(wǎng)絡(luò) PC、對等設(shè)備或其他常見網(wǎng)絡(luò)節(jié)點、或任何其他遠程媒體消費或傳輸設(shè)備,并且可以包括上面關(guān)于計算機1710所描述的任何或全部元件。圖17所描繪的邏輯連接包括諸如局域網(wǎng) (LAN)或廣域網(wǎng)(WAN)等的網(wǎng)絡(luò)1771,但也可以包括其他網(wǎng)絡(luò)/總線。這樣的聯(lián)網(wǎng)環(huán)境在家庭、辦公室、企業(yè)范圍計算機網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常見的。如上所述,雖然結(jié)合各計算設(shè)備、網(wǎng)絡(luò)和廣告體系結(jié)構(gòu)描述了示例性實施例,但還可將底層概念應(yīng)用于其中想要結(jié)合與云或網(wǎng)絡(luò)服務(wù)的交互來發(fā)布、構(gòu)建應(yīng)用或消費數(shù)據(jù)的任何網(wǎng)絡(luò)系統(tǒng)和任何計算設(shè)備或系統(tǒng)。有多種實現(xiàn)此處描述的一個或多個實施例的方式,例如,使應(yīng)用和服務(wù)能使用來自任何平臺的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)的適當(dāng)API、工具包、驅(qū)動程序代碼、操作系統(tǒng)、控件、 獨立或可下載的軟件對象等等??梢詮腁PI (或其他軟件對象)的觀點以及從便于提供根據(jù)所描述的實施例中的一個或多個的來自任何平臺的信息即服務(wù)的基礎(chǔ)結(jié)構(gòu)的軟件或硬件對象來構(gòu)想各實施例。此處描述的各種實現(xiàn)和實施例可以具有完全采用硬件、部分采用硬件并且部分采用軟件、以及采用軟件的方面。此處使用的詞語“示例性”意味著用作示例、范例或說明。為避免疑惑,此處公開的主題不受限于這樣的示例。此外,此處描述為“示例性”的任何方面或設(shè)計不必解釋成優(yōu)于其他方面或設(shè)計或比其他方面或設(shè)計有利,它也不旨在排除本領(lǐng)域的普通技術(shù)人員所知的等效示例性結(jié)構(gòu)和技術(shù)。而且,就術(shù)語“包括”、“具有”、“包含”和其他類似的詞語在詳細描述或權(quán)利要求書中的使用而言,為避免疑惑,這樣的術(shù)語旨在以類似于術(shù)語“包括”作為開放的過渡詞的方式解釋而在用在權(quán)利要求書中時不排除任何附加或其他元素。如上所述,此處所述的各種技術(shù)可結(jié)合硬件或軟件,或在適當(dāng)時以兩者的組合來實現(xiàn)。如在此所使用的,術(shù)語“組件”、“系統(tǒng)”等同樣指的是計算機相關(guān)實體,或者是硬件、 硬件和軟件的組合、軟件或執(zhí)行中的軟件。例如,組件可以是,但不限于是,在處理器上運行的進程、處理器、對象、可執(zhí)行碼、執(zhí)行的線程、程序和/或計算機。作為說明,運行在計算機上的應(yīng)用程序和計算機本身都可以是計算機組件。一個或多個組件可以駐留在進程和/或執(zhí)行的線程中,并且組件可以位于一個計算機內(nèi)和/或分布在兩個或更多的計算機之間。如前所述的系統(tǒng)是利用多個組件之間的交互來描述的??梢岳斫獾氖?,這樣的系統(tǒng)和組件可以包括這些組件或指定的子組件,某些指定的組件或子組件,和/或附加的組件,并根據(jù)前述的內(nèi)容的各種置換和組合。子組件也可以作為可通信地耦合到其他組件的組件來實現(xiàn),而不是包括在父組件內(nèi)(層次性)。另外,應(yīng)該注意,一個或多個組件也可以合并到提供聚合功能的單一組件中,或者也可以分成多個單獨的子組件,并且,可以提供諸如管理層之類的任何一個或更多中間層,以可通信地耦合到這樣的子組件,以便提供集成的功能。此處所描述的任何組件也可以與一個或多個此處沒有專門描述的但本領(lǐng)域技術(shù)人員廣泛地知道的其他組件進行交互。鑒于以上描述的示例性系統(tǒng),參考各附圖的流程圖將可以更好地理解依照所公開的主題實現(xiàn)的方法。盡管為了說明簡潔起見,作為一系列框示出和描述了方法,但是,應(yīng)該理解,所要求保護的主題不僅限于所描述框的順序,一些框可以按與此處所描繪和描述的不同的順序進行和/或與其它框并發(fā)地進行。盡管經(jīng)由流程圖示出了非順序或分支的流程,但可以理解,可實現(xiàn)達成相同或類似結(jié)果的各種其他分支、流程路徑和框次序。此外,并非全部所示出的框都是實現(xiàn)下面所描述的方法所必需的。雖然在某些實施例中,說明了客戶端側(cè)觀點,但要出于避免存在相對應(yīng)的服務(wù)器觀點的疑問來理解,反之亦然。類似地,在實施方法的地方,可以提供具有存儲和被配置成經(jīng)由一個或多個組件實施該方法的至少一個處理器的相對應(yīng)的設(shè)備。盡管結(jié)合各附圖的優(yōu)選實施例描述了各實施例,但可以理解,可以使用其他類似的實施例,或可以對所描述的實施例進行修改和添加來執(zhí)行相同的功能而不背離本發(fā)明。 而且,此處描述的各實施例的一個或多個方面可以在多個處理芯片或設(shè)備中實現(xiàn)或跨多個處理芯片或設(shè)備實現(xiàn),且存儲可以類似地跨多個設(shè)備來實現(xiàn)。因此,本發(fā)明不應(yīng)限于任何單個實施例,而是應(yīng)該根據(jù)所附權(quán)利要求書的廣度和范圍來解釋。
2權(quán)利要求
1.一種方法,包括從存儲在數(shù)據(jù)儲存庫中的數(shù)據(jù)集提取300數(shù)據(jù)子集;標識310與所述數(shù)據(jù)子集相對應(yīng)的格式;基于所述格式選擇320至少一個基準數(shù)據(jù)集,其中所述至少一個基準數(shù)據(jù)集與已知語義類型相關(guān)聯(lián);將所述數(shù)據(jù)子集的值與所述至少一個基準數(shù)據(jù)集進行比較100 ;以及基于所述比較的至少一個結(jié)果來推斷700所述數(shù)據(jù)集的語義信息,其中所述語義信息至少指定所述數(shù)據(jù)集中的數(shù)據(jù)的語義類型。
2.如權(quán)利要求1所述的方法,其特征在于,所述提取300包括提取整個所述數(shù)據(jù)集。
3.如權(quán)利要求1所述的方法,其特征在于,所述提取300數(shù)據(jù)子集包括隨機選擇所述數(shù)據(jù)集的值。
4.如權(quán)利要求1所述的方法,其特征在于,所述提取300數(shù)據(jù)子集包括從所述數(shù)據(jù)集的開頭、所述數(shù)據(jù)集的末尾、或所述數(shù)據(jù)集的中間中的至少一個處提取預(yù)定數(shù)目個值。
5.如權(quán)利要求1所述的方法,其特征在于,還包括對照一個或多個域規(guī)則驗證510所述數(shù)據(jù)子集的值,其中所述一個或多個域規(guī)則對應(yīng)于所述數(shù)據(jù)集中的數(shù)據(jù)的語義類型,包括呈現(xiàn)無效值,所述無效值包括所述一個或多個域規(guī)則不允許的值。
6.如權(quán)利要求1所述的方法,其特征在于,還包括從所述數(shù)據(jù)集提取210字段名稱;以及將所述字段名稱與潛在有效標簽列表作比較220。
7.如權(quán)利要求1所述的方法,其特征在于,所述標識310格式包括對照多個預(yù)配置的模式來評估所述數(shù)據(jù)子集的所述值的至少一個結(jié)構(gòu)。
8.如權(quán)利要求1所述的方法,其特征在于,將所述數(shù)據(jù)子集的值與所述至少一個基準數(shù)據(jù)集進行比較包括從所述值選擇410 —值;就所述值查詢420所述至少一個基準數(shù)據(jù)集;以及當(dāng)返回就所述值的所述查詢的結(jié)果時,對有效命中進行計數(shù)440。
9.如權(quán)利要求1所述的方法,其特征在于,還包括標識710第二數(shù)據(jù)集,所述第二數(shù)據(jù)集包括與所述數(shù)據(jù)集的數(shù)據(jù)的所述語義類型相對應(yīng)的至少一個字段;以及生成720將所述數(shù)據(jù)集與所述第二數(shù)據(jù)集相關(guān)聯(lián)的關(guān)系信息,其中所述關(guān)系信息指定所述數(shù)據(jù)集與所述第二數(shù)據(jù)集之間的關(guān)聯(lián)。
10.如權(quán)利要求1所述的方法,其特征在于,還包括獲得900關(guān)系信息,所述關(guān)系信息將所述數(shù)據(jù)儲存庫中的多個數(shù)據(jù)集進行關(guān)聯(lián);以及顯示920所述關(guān)系信息的可視化作為圖形用戶界面的一部分。
11.如權(quán)利要求1所述的方法,其特征在于,還包括輸出520所述語義信息以供進行外部確認。
12.—種語義分析系統(tǒng),包括語義分析組件622,其被配置成推斷與由提供信息作為服務(wù)的系統(tǒng)存儲的數(shù)據(jù)集的數(shù)據(jù)的有關(guān)的語義信息,所述語義分析組件包括格式檢查組件624,其被配置成標識從所述數(shù)據(jù)集提取的樣本數(shù)據(jù)的格式,以及基于所述格式選擇一個或多個基準數(shù)據(jù)集;以及值檢查組件626,其被配置成對照所述一個或多個基準數(shù)據(jù)集檢查所述樣本數(shù)據(jù)的值, 以標識所述樣本數(shù)據(jù)的語義類型,其中所述語義分析組件622還被配置成基于所標識的所述語義類型來推斷所述語義 fn息ο
13.如權(quán)利要求12所述的語義分析系統(tǒng),其特征在于,還包括域檢查組件628,其被配置成確定所述樣本數(shù)據(jù)的值是否滿足域規(guī)則集, 其中所述域規(guī)則集確立特定數(shù)據(jù)類型的有效數(shù)據(jù)值。
14.如權(quán)利要求12所述的語義分析系統(tǒng),其特征在于,還包括鏈接組件1030,其被配置成基于相應(yīng)的語義信息將由所述信息即服務(wù)系統(tǒng)存儲的多個不同數(shù)據(jù)集進行關(guān)聯(lián)。
15.如權(quán)利要求12所述的語義分析系統(tǒng),其特征在于,還包括可視化組件1040,其被配置成生成由所述信息即服務(wù)系統(tǒng)存儲的數(shù)據(jù)集之間的關(guān)聯(lián)的可視化,其中所述可視化包括圖顯示,其中節(jié)點表示所述數(shù)據(jù)集,而邊表示所述數(shù)據(jù)集之間的關(guān)聯(lián)。
全文摘要
本文描述了信息的語義分析?;趯ΡA粼跀?shù)據(jù)儲存庫中的數(shù)據(jù)集執(zhí)行的語義分析來推斷描述數(shù)據(jù)集的語義信息。語義分析可包括確定與數(shù)據(jù)集的字段相關(guān)聯(lián)的格式,以及將字段的值與具有預(yù)定語義類型的基準數(shù)據(jù)集進行比較?;谙鄳?yīng)的語義信息來推斷數(shù)據(jù)集之間的關(guān)聯(lián)。這些關(guān)聯(lián)被合并到結(jié)合圖形用戶界面來顯示的可視化中。
文檔編號G06F17/27GK102419744SQ201110340480
公開日2012年4月18日 申請日期2011年10月19日 優(yōu)先權(quán)日2010年10月20日
發(fā)明者M·克斯拉維 申請人:微軟公司