亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

針對數(shù)據(jù)類型依賴處理、自動(dòng)檢測數(shù)據(jù)類型的方法和裝置的制作方法

文檔序號:6434162閱讀:185來源:國知局
專利名稱:針對數(shù)據(jù)類型依賴處理、自動(dòng)檢測數(shù)據(jù)類型的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種用于不同類型數(shù)據(jù)的分類、組織和構(gòu)造的方法和裝置,例如,可以將其用于數(shù)據(jù)分類、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)檢索。
背景技術(shù)
對于視頻和其他數(shù)據(jù)的個(gè)人記錄,類似硬盤和可重寫光盤之類的數(shù)字存儲(chǔ)介質(zhì)的容量在持續(xù)地發(fā)展。這導(dǎo)致了類似所謂的家庭服務(wù)器之類的新概念,所述家庭服務(wù)器是具有大容量的中央存儲(chǔ)設(shè)備,用于記錄家庭中任何種類的數(shù)據(jù)。這種應(yīng)用還需要新的方式,以便組織所記錄的數(shù)據(jù)、搜索內(nèi)容并訪問特定的記錄。
出于此目的,可以使用有關(guān)通常被稱為元數(shù)據(jù)的數(shù)據(jù)。不同的工業(yè)集團(tuán)和標(biāo)準(zhǔn)化組織已開發(fā)了用于不同用途和應(yīng)用的元數(shù)據(jù)標(biāo)準(zhǔn)。在多媒體應(yīng)用中,典型地,元數(shù)據(jù)是有關(guān)視聽(AV)數(shù)據(jù)的數(shù)據(jù),通常將這些AV數(shù)據(jù)稱作“本質(zhì)(essence)”。然而,應(yīng)當(dāng)能夠正確處理多種數(shù)據(jù)類型的數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng)(DBMS)需要數(shù)據(jù)類型的定義以及區(qū)分其的方法。

發(fā)明內(nèi)容
本發(fā)明基于對下述事實(shí)的認(rèn)知在提供用于處理包括元數(shù)據(jù)在內(nèi)的輸入數(shù)據(jù)的DBMS的設(shè)備中,由于不同種類的元數(shù)據(jù)需要不同的處理,因此有必要對所述輸入數(shù)據(jù)進(jìn)行分類,尤其是輸入元數(shù)據(jù)。例如,在中,文本查詢就不適于包括公知的圖形交換格式(GIF)的圖片的元數(shù)據(jù)。
本發(fā)明要解決的問題在于自動(dòng)對數(shù)據(jù)進(jìn)行分類,從而DBMS能夠?qū)⒎诸惖慕Y(jié)果用于正確的數(shù)據(jù)處理。權(quán)利要求1公開的方法和權(quán)利要求5公開的裝置解決了該問題。例如,可以將這種裝置的輸出直接送到DBMS。
根據(jù)本發(fā)明,將元數(shù)據(jù)定義為由兩部分構(gòu)成的數(shù)據(jù)集,即,第一部分是指向參考數(shù)據(jù)集的鏈接,而第二部分是涉及所述鏈接的任意數(shù)據(jù)。下文中,將所述第一部分稱作MD_LINK,而將所述第二部分稱作MD_LOAD。將不包含至少一個(gè)MD_LINK和相關(guān)MD_LOAD的數(shù)據(jù)項(xiàng)定義為本質(zhì)。例如,元數(shù)據(jù)通常會(huì)結(jié)合類似硬盤上的文件等邏輯實(shí)體,和其他元數(shù)據(jù)或本質(zhì)一起出現(xiàn)。下文中將這種不同種類的本質(zhì)和元數(shù)據(jù)的混合稱作“容器”。這種容器的常見示例是超文本標(biāo)示語言(HTML)文件,或可移植文檔格式(PDF)文件。
此外,根據(jù)本發(fā)明,存在其他類型的分類可能。在能夠被使用之前,數(shù)據(jù)需要通過設(shè)備進(jìn)行解譯。在這種情況下,如果該設(shè)備具有用于所定義的解譯的方法,則將數(shù)據(jù)定義為物理數(shù)據(jù),否則,將其定義為抽象數(shù)據(jù)。例如,如果將圖片存儲(chǔ)為GIF格式,且設(shè)備能夠解譯GIF格式并將其作為圖片顯示,則將其分類為物理數(shù)據(jù)。如果設(shè)備不能解譯GIF格式,則將數(shù)據(jù)分類為抽象數(shù)據(jù)。抽象數(shù)據(jù)的另一個(gè)示例是文本文件,以及設(shè)備不能解譯的其他文件。
之前定義的兩種分類類型不是排他的,而是彼此相互補(bǔ)充。此外,所述數(shù)據(jù)的分類不是絕對的,而是系統(tǒng)依賴的,因此只是本地相關(guān)的。
有利地,該分類允許設(shè)備正確地處理不同的數(shù)據(jù)種類,元數(shù)據(jù)、本質(zhì)、容器、物理數(shù)據(jù)和抽象數(shù)據(jù)之間彼此不同,因此允許基于所述數(shù)據(jù)類型的通用訪問方法。利用此知識(shí),例如,設(shè)備能夠確定使用何種類型的數(shù)據(jù)查詢,如何解譯數(shù)據(jù),以及對于某一查詢是否可以放棄某些數(shù)據(jù)。
以下文本以及各個(gè)從屬權(quán)利要求中公開了本發(fā)明的其他優(yōu)選實(shí)施例。


參考附圖,對本發(fā)明的典型實(shí)施例進(jìn)行說明,其中圖1數(shù)據(jù)分類的兩個(gè)系統(tǒng)或兩個(gè)維度;
圖2包含本質(zhì)和元數(shù)據(jù)的容器示例;圖3抽象數(shù)據(jù)的示例;圖4物理數(shù)據(jù)的示例;以及圖5根據(jù)本發(fā)明的方法的典型流程圖。
具體實(shí)施例方式
如圖1所示,根據(jù)本發(fā)明,可以將分類的兩種類型或系統(tǒng)理解為兩個(gè)維度。數(shù)據(jù)項(xiàng)可以是本質(zhì)E或元數(shù)據(jù)M,以及物理數(shù)據(jù)PD或抽象數(shù)據(jù)AD。因此,可能的數(shù)據(jù)類型是物理本質(zhì)PE、物理元數(shù)據(jù)PM、抽象本質(zhì)AE或抽象元數(shù)據(jù)AM。此外,如果包含其他數(shù)據(jù)項(xiàng),則數(shù)據(jù)項(xiàng)還可以是容器C。
數(shù)據(jù)的分類不是絕對的,而是從設(shè)備角度出發(fā)的主觀分類,因此,例如只在DBMS系統(tǒng)內(nèi)是相關(guān)的。例如,可能會(huì)出現(xiàn)一個(gè)系統(tǒng)能夠解譯一個(gè)鏈接,而另一個(gè)系統(tǒng)不能解譯同樣鏈接的情況。因此,例如可能會(huì)出現(xiàn)一個(gè)系統(tǒng)將一定數(shù)據(jù)分類為由MD_LOAD和MD_LINK構(gòu)成的元數(shù)據(jù),而另一個(gè)系統(tǒng)將同樣的數(shù)據(jù)分類為本質(zhì),因?yàn)槠洳荒芙庾g該鏈接。例如,另一個(gè)示例是一個(gè)系統(tǒng)可以再現(xiàn)MPEG音頻層3或MP3已編碼文件,而另一個(gè)系統(tǒng)不能解譯MP3格式。在這種情況下,第一個(gè)系統(tǒng)將MP3已編碼文件分類為物理數(shù)據(jù),而第二個(gè)系統(tǒng)將同樣的文件分類為抽象數(shù)據(jù)。
由于文本始終是用于保存數(shù)據(jù)的格式,因此認(rèn)為文本是抽象數(shù)據(jù)。已格式化文本能夠表示數(shù)據(jù)的直接物理表述,例如PDF格式。格式信息只表示支持信息,即,如果從PDF文件中提取出格式信息,則剩余的是作為主要信息的純文本。如果提取出文本,則會(huì)丟失主要信息。由于文本表示了主要信息這一事實(shí),因此也將已格式化文本認(rèn)為是抽象數(shù)據(jù)。
當(dāng)在其輸入接收到數(shù)據(jù)時(shí),權(quán)利要求5所公開的設(shè)備執(zhí)行以下過程如果數(shù)據(jù)包含多于一個(gè)數(shù)據(jù)項(xiàng),則輸出是“數(shù)據(jù)是容器”。下面將給出更多細(xì)節(jié)。分類可以在這里停止,或延伸到容器中按分級構(gòu)造的數(shù)據(jù)樹的部分或全部枝葉。
如果數(shù)據(jù)是元數(shù)據(jù),則輸出是“數(shù)據(jù)是元數(shù)據(jù)”。
否則輸出是“數(shù)據(jù)是本質(zhì)”。
如果數(shù)據(jù)是物理數(shù)據(jù),則另外的輸出是“數(shù)據(jù)是物理數(shù)據(jù)”。
否則,如果數(shù)據(jù)是抽象數(shù)據(jù),則另外的輸出是“數(shù)據(jù)是抽象數(shù)據(jù)”。
有利地,設(shè)備能夠檢測并輸出物理數(shù)據(jù)的類型,例如“數(shù)據(jù)是分辨率為x=200象素,y=400象素的彩色圖片(24比特)”。
如果數(shù)據(jù)格式對于設(shè)備是未知的,因此設(shè)備不能將數(shù)據(jù)分類為容器、元數(shù)據(jù)、本質(zhì)、抽象數(shù)據(jù)或物理數(shù)據(jù),則輸出可以是任意默認(rèn)類型的輸出,例如“數(shù)據(jù)類型未知”或“數(shù)據(jù)是本質(zhì)和抽象數(shù)據(jù)”。
此外,有利地,如果設(shè)備檢測數(shù)據(jù)是否是文本如果數(shù)據(jù)是抽象數(shù)據(jù)和文本,則還可以附加輸出“數(shù)據(jù)是文本”。
例如,這可以通過從電子詞典中搜索已知詞匯或搜索由空格分開的字符組來實(shí)現(xiàn)。
如果輸入數(shù)據(jù)是容器,附加的輸出可以是“數(shù)據(jù)是容器,即,包含更多的元數(shù)據(jù)或本質(zhì)”??蛇x地,可以包括準(zhǔn)確的細(xì)節(jié)“容器包含至少一個(gè)元數(shù)據(jù)和一個(gè)本質(zhì)”,或“容器根本不包含元數(shù)據(jù)”,甚或“容器正好包含N個(gè)元數(shù)據(jù)項(xiàng)”,其中N是包含在容器中的元數(shù)據(jù)的數(shù)量。
如果設(shè)備能夠檢測出已分析數(shù)據(jù)的格式,則附加地將其輸出“數(shù)據(jù)格式是X”?!癤”是格式。例如,“X”的示例可以是“HTML”或“JPEG”。
圖2示出了包含有公知的HTML格式的本質(zhì)和元數(shù)據(jù)的組合的數(shù)據(jù)文件的示例。在下文中,說明根據(jù)本發(fā)明的、對所有元素的分類。
首先,設(shè)備檢測到第一行是<html>,因此,數(shù)據(jù)文件應(yīng)當(dāng)是HTML格式的。假設(shè)設(shè)備能夠解譯HTML格式,因此將HTML文件中具有“href”屬性的項(xiàng)解譯為鏈接。由于HTML格式文件通常包含分級結(jié)構(gòu),因此首先分析分級樹的葉元素。由于沒有鏈接附于該元素,因此將圖2中的第一元素<title>This is the title</title>
分類為本質(zhì)。
將元素<a href=http//www.w3c.org>W3C HOME</a>
分類為元數(shù)據(jù),其中字符串“W3C HOME是本質(zhì)或MD_LOAD,而字符串“href=http//w3c.org”是相關(guān)鏈接或MD_LINK。
下一個(gè)葉元素<p>This is a paragraph</p>
不包含鏈接,因此將其分類為本質(zhì)。
由于下一個(gè)葉元素<img src=“image.gif”>
只有一個(gè)鏈接,即不包含與MD_LOAD相關(guān)的MD_LINK,因此將其也分類為本質(zhì)。因此其不可能是元數(shù)據(jù)。該鏈接的用途是參考其他本質(zhì),即圖片數(shù)據(jù)。
當(dāng)分析了分級的第一層的所有元素時(shí),研究下一層。將元素<head>
<title>This is the title</title>
</head>
分類為本質(zhì),這是由于其不包含鏈接,而且只有一個(gè)元素,該元素是本質(zhì)。
將元素<a href=http//www.w3c.org>
<img src=”image.gif”>
</a>
分類為元數(shù)據(jù),其中<img src=“image.gif”>是MD_LOAD部分,而“href”屬性是相關(guān)的鏈接。
將下一個(gè)元素<body>
…</body>
分類為容器,因?yàn)槠鋵⒃獢?shù)據(jù)項(xiàng)和本質(zhì)項(xiàng)組合在一起。
最后,將元素
<html>
…</html>
也分類為容器。其將本質(zhì)項(xiàng),即<head>元素,和容器,即<body>元素組合在一起。
圖3示出了抽象元數(shù)據(jù)的示例。將單個(gè)數(shù)據(jù)項(xiàng)3R、3M分組在數(shù)據(jù)單元3C中。例如,數(shù)據(jù)單元3C可以是HTML文件。對于所述數(shù)據(jù)項(xiàng)之一,設(shè)備檢測到其包含鏈接3L,當(dāng)指向文本3E時(shí),由從箭頭轉(zhuǎn)換為手的光標(biāo)象征。由于文本3E和鏈接3L屬于一起,且文本3E是本質(zhì),因此它們構(gòu)成了元數(shù)據(jù)項(xiàng)3M,且鏈接3L是指向數(shù)據(jù)單元3C外部的參考3REF的元數(shù)據(jù)鏈接。由于元數(shù)據(jù)項(xiàng)3M的本質(zhì)3E是文本,且文本是抽象數(shù)據(jù),因此,元數(shù)據(jù)項(xiàng)3M是抽象數(shù)據(jù)項(xiàng)。數(shù)據(jù)單元3C中剩余的數(shù)據(jù)項(xiàng)3R是任意文本和圖片。由于其包含至少一個(gè)元數(shù)據(jù)項(xiàng)3M及其他,因此數(shù)據(jù)單元3C是保留了數(shù)據(jù)項(xiàng)3R的容器。
圖4示出了物理元數(shù)據(jù)的示例。數(shù)據(jù)單元4C中包含多個(gè)數(shù)據(jù)項(xiàng)4R和4M,例如,單元4C是HTML文件。在這種情況下,設(shè)備檢測到圖片4E與鏈接4L相關(guān),由從箭頭轉(zhuǎn)換為手的光標(biāo)象征。鏈接4L指向數(shù)據(jù)單元4C外部的參考4REF。由于圖片4E和鏈接4L屬于一起,因此其構(gòu)成了元數(shù)據(jù)項(xiàng)4M,其中圖片4E是該元數(shù)據(jù)的本質(zhì)。例如,所述本質(zhì)4E是JPEG格式圖片,例如在HTML文件中,將其稱為<img src=Anton.jpg width=108 height=73>。由于設(shè)備能夠?qū)⑵滹@示,因此其是物理數(shù)據(jù),而元數(shù)據(jù)項(xiàng)4M是物理元數(shù)據(jù)。由于其包含至少一個(gè)元數(shù)據(jù)項(xiàng)4M和其他項(xiàng)4R,因此數(shù)據(jù)單元4C是容器。
圖5示出了本發(fā)明方法的典型流程圖。本發(fā)明的目的是對不同類型的輸入數(shù)據(jù)IN進(jìn)行分類。分析輸入數(shù)據(jù)IN,并且第一決策單元確定是否能夠檢測輸入數(shù)據(jù)的格式。如果不能,則顯示“未知”,作為輸出,并且在結(jié)束狀態(tài)EX處分類結(jié)束。如果格式已知,例如是HTML,則第二決策模塊D2確定輸入數(shù)據(jù)是否包含未分類元素。如果答案為“是”,則選取下一個(gè)未分類數(shù)據(jù)項(xiàng),并將其轉(zhuǎn)送到第三決策模塊D3。該第三決策模塊D3確定所述數(shù)據(jù)項(xiàng)是容器C、元數(shù)據(jù)M還是本質(zhì)E。如果數(shù)據(jù)項(xiàng)包含已經(jīng)被分類為元數(shù)據(jù)的另一個(gè)數(shù)據(jù)項(xiàng),則決策是“容器”。如果數(shù)據(jù)項(xiàng)包含具有與該鏈接相關(guān)的本質(zhì)的鏈接,則決策是“元數(shù)據(jù)”。在其他所有情況下,決策是“本質(zhì)”。在輸出處顯示第三決策模塊所作出的決策。如果所分析的數(shù)據(jù)項(xiàng)是容器C,則過程再次返回第二決策模塊D2,否則進(jìn)入第四決策模塊D4。所述第四決策模塊D4確定設(shè)備是否能夠解譯該數(shù)據(jù)項(xiàng),從而能夠向用戶公開更多的信息,例如,可顯示的圖片。如果答案為“是”,則在輸出處顯示所述數(shù)據(jù)項(xiàng)是物理數(shù)據(jù)PD,否則為抽象數(shù)據(jù)AD。在所述數(shù)據(jù)項(xiàng)是物理數(shù)據(jù)PD的情況下,在所述第四決策模塊D4中隱含地完成格式檢測。然后,第五決策模塊D5可以檢測格式細(xì)節(jié),并確定是否應(yīng)當(dāng)指示檢測到的格式,如果是,則可以在輸出處顯示格式F1,…,F(xiàn)3。在所述數(shù)據(jù)項(xiàng)是抽象數(shù)據(jù)AD的情況下,第六決策模塊D6確定該數(shù)據(jù)是否包含文本。如果包含,則在輸出處指示。如果數(shù)據(jù)項(xiàng)是抽象數(shù)據(jù)AD且不是文本,則不產(chǎn)生進(jìn)一步的指示。然后,過程從第二決策模塊D2重復(fù),確定是否包含其他未分類元素。如果不是這種情況,則數(shù)據(jù)項(xiàng)分類完成并進(jìn)入結(jié)束狀態(tài)EX。本發(fā)明的該實(shí)施例分析了容器的所有分級層和葉元素,而其他實(shí)施例可以只分析容器的某些分級層或葉元素。
有利地,可以在用于數(shù)據(jù)分類、例如DBMS的數(shù)據(jù)存儲(chǔ)或例如瀏覽器的數(shù)據(jù)檢索的設(shè)備中使用所述數(shù)據(jù)分類的方法。當(dāng)不同類別的數(shù)據(jù)需要不同的處理,例如不同的搜索算法、不同的存儲(chǔ)方法或區(qū)域、不同的壓縮方法或不同的顯示方法時(shí),可以使用所述方法。
可以在獨(dú)立設(shè)備中實(shí)現(xiàn)本發(fā)明,相對于其格式、內(nèi)容和與其他數(shù)據(jù)的關(guān)系,例如鏈接等,來分類輸入數(shù)據(jù),并且提供了有關(guān)數(shù)據(jù)的信息。當(dāng)識(shí)別這些數(shù)據(jù)是否包含鏈接或這些數(shù)據(jù)是否需要特定的查詢方法時(shí),這些數(shù)據(jù)尤其必要。
該設(shè)備可以是其他設(shè)備的一部分或可以由硬件或軟件實(shí)現(xiàn),例如作為PC的應(yīng)用程序或插件程序。此外,例如,通過因特網(wǎng)或其他數(shù)據(jù)源,可以對其進(jìn)行更新,從而能夠識(shí)別越來越多的格式,因此該設(shè)備能夠自我更新并且越來越有效。
權(quán)利要求
1.一種技術(shù)設(shè)備針對數(shù)據(jù)類型依賴處理、自動(dòng)檢測數(shù)據(jù)類型的方法,其特征在于a)接收不同數(shù)據(jù)類型的數(shù)據(jù)(IN),b)分析所述接收到的數(shù)據(jù),c)檢測(D1)接收到的數(shù)據(jù)的格式,d)使用所述檢測到的格式,用于評價(jià)(D3)所述數(shù)據(jù)是否包含-至少一個(gè)機(jī)器可解譯鏈接和關(guān)聯(lián)數(shù)據(jù)(M)-除所述第一類型的數(shù)據(jù)(M)以外的任意其他數(shù)據(jù)(E),例如文本、圖片數(shù)據(jù)、鏈接,或-所述機(jī)器可解譯鏈接和關(guān)聯(lián)數(shù)據(jù)(M)與所述其他數(shù)據(jù)(E)的結(jié)合,e)評價(jià)(D4)所述技術(shù)設(shè)備是否能夠解譯所述數(shù)據(jù),以再現(xiàn)所述數(shù)據(jù)的物理表述,以及f)將所述第一評價(jià)的結(jié)果(M,E,C)以及所述第二評價(jià)的結(jié)果(PD,AD)提供給設(shè)備或處理,用于所述數(shù)據(jù)(IN)的數(shù)據(jù)類型依賴處理。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于對于所述技術(shù)設(shè)備可解譯的數(shù)據(jù)(PD),還指示了所述數(shù)據(jù)的格式類型是否是多個(gè)指定格式類型(F1,…F3)之一。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于對于所述技術(shù)設(shè)備不可解譯的數(shù)據(jù)(AD),還指示了其是否是文本。
4.根據(jù)權(quán)利要求1到3之一所述的方法,其特征在于所述技術(shù)設(shè)備是數(shù)據(jù)分類設(shè)備、數(shù)據(jù)庫管理系統(tǒng)或數(shù)據(jù)內(nèi)容瀏覽器。
5.一種針對數(shù)據(jù)類型依賴處理、自動(dòng)檢測數(shù)據(jù)類型的裝置,其特征在于使用了根據(jù)權(quán)利要求1到4之一所述的方法。
全文摘要
一種針對數(shù)據(jù)類型依賴處理、自動(dòng)檢測數(shù)據(jù)類型的方法,具有已定義的兩個(gè)正交分類系統(tǒng),并且對于輸入數(shù)據(jù)項(xiàng),依照第一分類系統(tǒng)確定一個(gè)數(shù)據(jù)類型,并依照第二分類系統(tǒng)確定另一數(shù)據(jù)類型。第一分類系統(tǒng)包括數(shù)據(jù)類型本質(zhì)(E)、元數(shù)據(jù)(M)和容器(C)。第二分類系統(tǒng)包括數(shù)據(jù)類型物理數(shù)據(jù)(PD)和抽象數(shù)據(jù)(AD)。將不能唯一分類的數(shù)據(jù)項(xiàng)定義為默認(rèn)數(shù)據(jù)類型。有利地,當(dāng)不同類別的數(shù)據(jù)項(xiàng)需要不同的處理方法時(shí),例如內(nèi)容搜索,則能夠使用本發(fā)明的方法。
文檔編號G06F17/30GK1610905SQ02826415
公開日2005年4月27日 申請日期2002年12月14日 優(yōu)先權(quán)日2001年12月28日
發(fā)明者馬爾科·溫特, 迪爾克·阿道夫, 約布斯特·霍倫特魯普 申請人:湯姆森許可貿(mào)易公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1