本發(fā)明涉及大數(shù)據(jù)領(lǐng)域,具體涉及一種基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估方法和系統(tǒng)。
背景技術(shù):
數(shù)據(jù)交易目前處于行業(yè)初期,發(fā)展非常迅速,但缺少成熟的理論指導(dǎo)。將數(shù)據(jù)價(jià)值量化是一件非常困難的事,這是由數(shù)據(jù)的本質(zhì)特征以及目前的商業(yè)環(huán)境所決定的。同時(shí),這一工作還要受到眾多客觀因素的阻礙,如數(shù)據(jù)收集成本的精確評(píng)估,數(shù)據(jù)的貶值與生命周期變化,以及數(shù)據(jù)的附加價(jià)值等。
因此亟待需要一種能夠?qū)?shù)據(jù)價(jià)值進(jìn)行量化,對(duì)數(shù)據(jù)資產(chǎn)進(jìn)行估值,以更好的為數(shù)據(jù)市場(chǎng)行為服務(wù),促進(jìn)數(shù)據(jù)市場(chǎng)交易和數(shù)據(jù)項(xiàng)目落地。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)上述技術(shù)問(wèn)題,本發(fā)明提供一種從數(shù)據(jù)結(jié)構(gòu)一致性的角度對(duì)數(shù)據(jù)價(jià)值進(jìn)行評(píng)估,為數(shù)據(jù)定價(jià)和數(shù)據(jù)交易提供一定的參考依據(jù)的評(píng)估方法和系統(tǒng)。
一致性是國(guó)際公認(rèn)的空間數(shù)據(jù)質(zhì)量指標(biāo)之一,可以區(qū)分為空間一致性、屬性一致性、拓?fù)湟恢滦?、語(yǔ)義一致性等類型?,F(xiàn)有的一致性研究主要在檢測(cè)源數(shù)據(jù)與備份數(shù)據(jù)是否一致來(lái)確保備份數(shù)據(jù)高可用性的技術(shù)。本發(fā)明不是衡量源數(shù)據(jù)和備份數(shù)據(jù)是否完全一致性問(wèn)題,而是針對(duì)一個(gè)數(shù)據(jù)文件夾,里面包含各種數(shù)據(jù)類型的的文件,如JSON,圖片,視頻,音頻等等文件,怎么衡量該文件一致性問(wèn)題是本發(fā)明主要解決的問(wèn)題。
為此,本發(fā)明的一實(shí)施例提供一種基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估方法,包括:采集待評(píng)估的數(shù)據(jù)文件;對(duì)采集的數(shù)據(jù)文件的類型進(jìn)行劃分,并計(jì)算每個(gè)類型的數(shù)據(jù)文件在整個(gè)數(shù)據(jù)文件中所占的比例;利用預(yù)設(shè)的處理方法對(duì)所述數(shù)據(jù)文件的一致性進(jìn)行處理。
本發(fā)明的另一實(shí)施例提供一種基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估系統(tǒng),其特征在于,包括:數(shù)據(jù)采集模塊,采集待評(píng)估的數(shù)據(jù)文件;類型劃分模塊,對(duì)采集的數(shù)據(jù)文件的類型進(jìn)行劃分,并計(jì)算每個(gè)類型的數(shù)據(jù)文件在整個(gè)數(shù)據(jù)文件中所占的比例;一致性處理模塊,利用預(yù)設(shè)的處理方法對(duì)所述數(shù)據(jù)文件的一致性進(jìn)行處理。
本發(fā)明提供的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估方法和系統(tǒng),該方法通過(guò)將數(shù)據(jù)文件集合中不同文件進(jìn)行格式上的劃分,整理出非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的比例,再通過(guò)不同形態(tài)文件的比例,計(jì)算出該數(shù)據(jù)文件集合的格式一致性,解決了數(shù)據(jù)價(jià)值評(píng)估和價(jià)格評(píng)估的一個(gè)環(huán)節(jié),從數(shù)據(jù)格式的一致性角度來(lái)對(duì)數(shù)據(jù)文件集合進(jìn)行價(jià)值上的評(píng)估,為數(shù)據(jù)價(jià)值定價(jià)和數(shù)據(jù)交易提供一定的依據(jù)。
附圖說(shuō)明
圖1為本發(fā)明實(shí)施例提供的數(shù)據(jù)價(jià)值評(píng)估過(guò)程的示意圖;
圖2為本發(fā)明實(shí)施例提供的數(shù)據(jù)價(jià)值評(píng)估系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
以下結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行描述。
【本發(fā)明的技術(shù)思想】
本發(fā)明基于一致性原則,通過(guò)一致性評(píng)分公式來(lái)對(duì)包含各種數(shù)據(jù)類型的的文件,如JSON,圖片,視頻,音頻等等文件的數(shù)據(jù)文件夾的一致性進(jìn)行評(píng)估,從而評(píng)估數(shù)據(jù)文件夾的價(jià)值,實(shí)現(xiàn)數(shù)據(jù)價(jià)值量化。
圖1為本發(fā)明實(shí)施例提供的數(shù)據(jù)價(jià)值評(píng)估過(guò)程的示意圖。圖2為本發(fā)明實(shí)施例提供的數(shù)據(jù)價(jià)值評(píng)估系統(tǒng)的結(jié)構(gòu)示意圖。以下結(jié)合附圖對(duì)本發(fā)明的數(shù)據(jù)評(píng)估方法和系統(tǒng)進(jìn)行介紹。
【數(shù)據(jù)文件評(píng)估方法】
如圖1所示,本發(fā)明的數(shù)據(jù)文件評(píng)估方法包括以下步驟:
S101:采集待評(píng)估的數(shù)據(jù)文件;
S102:數(shù)據(jù)文件類型劃分,并確定比例
S103:對(duì)數(shù)據(jù)文件的一致性進(jìn)行處理;
上述步驟S101中,可利用現(xiàn)有的數(shù)據(jù)采集裝置來(lái)進(jìn)行數(shù)據(jù)采集,例如可通過(guò)網(wǎng)絡(luò)爬蟲(chóng)來(lái)從網(wǎng)絡(luò)中采集數(shù)據(jù)文件,本發(fā)明中的數(shù)據(jù)文件可為包含多個(gè)數(shù)據(jù)文件集合的數(shù)據(jù)包,也可為單個(gè)的文檔,采集的數(shù)據(jù)包可包含JSON,圖片,視頻,音頻等文件,但并不局限于此。
上述步驟S102中,按照數(shù)據(jù)類型,將采集的數(shù)據(jù)文件劃分為非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),并計(jì)算這些數(shù)據(jù)類型占整個(gè)文件的大小的比例。具體操作過(guò)程中,可通過(guò)手動(dòng)操作來(lái)劃分?jǐn)?shù)據(jù)類型,可借助于R語(yǔ)言和手動(dòng)操作來(lái)完成各個(gè)類型的比例計(jì)算。
在本發(fā)明的實(shí)施例中,非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)定義如下:
非結(jié)構(gòu)化數(shù)據(jù):非結(jié)構(gòu)化數(shù)據(jù)是指沒(méi)有固定結(jié)構(gòu)的數(shù)據(jù),例如,所有格式的辦公文檔、文本、圖片、各類報(bào)表、圖像和音頻、視頻信息。
半結(jié)構(gòu)化數(shù)據(jù):半結(jié)構(gòu)化數(shù)據(jù)是指數(shù)據(jù)具有隱含結(jié)構(gòu)但又不是以二維表之類的形式存在的,介于結(jié)構(gòu)化和非結(jié)構(gòu)化知識(shí)源之間的一種知識(shí)源,例如,存儲(chǔ)員工的簡(jiǎn)歷、類似XML、HTML、JSON等文件。
結(jié)構(gòu)化數(shù)據(jù):傳統(tǒng)的關(guān)系數(shù)據(jù)模型、行數(shù)據(jù),存儲(chǔ)于數(shù)據(jù)庫(kù),可用二維表結(jié)構(gòu)表示的數(shù)據(jù),例如,存儲(chǔ)于csv,excel的數(shù)據(jù)、二維表。
非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)在整個(gè)數(shù)據(jù)文件中所占的比例可分別用q、p和h進(jìn)行表示。
在上述步驟S103中,可通過(guò)利用下述一致性評(píng)分公式對(duì)數(shù)據(jù)文件的一致性進(jìn)行評(píng)估:
其中,f是指一致性得分,范圍為[0,1],f值越大,表示數(shù)據(jù)文件的一致性越高,q、p和h分別表示非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的比例,其中q+p+h=1。
可通過(guò)步驟S103中計(jì)算的關(guān)于數(shù)據(jù)文件的一致性得分f來(lái)評(píng)估數(shù)據(jù)文件的價(jià)值,一致性得分f與數(shù)據(jù)文件價(jià)值的成正比,如果f值越大,即越接近1,則表示數(shù)據(jù)文件相應(yīng)的估值也越高,所得出的一致性得分會(huì)被進(jìn)行存儲(chǔ)。
<實(shí)施例>
采集的待評(píng)估數(shù)據(jù)文件為一個(gè)JSON類型的專利數(shù)據(jù)包,大小為1G。利用本發(fā)明提供的評(píng)估方法進(jìn)行評(píng)估,過(guò)程如下:
(1)計(jì)算專利數(shù)據(jù)包中的各類型數(shù)據(jù)的比例
通過(guò)對(duì)該數(shù)據(jù)文件的類型進(jìn)行劃分和比例進(jìn)行計(jì)算,確認(rèn)含有結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),且結(jié)構(gòu)化數(shù)據(jù)為234.5M,半結(jié)構(gòu)化數(shù)據(jù)為103.36M,結(jié)構(gòu)化數(shù)據(jù)為686.14M,這樣各數(shù)據(jù)所占比例如下:
結(jié)構(gòu)化數(shù)據(jù)占比:q=234.5/1024=0.229
半結(jié)構(gòu)化數(shù)據(jù)占比:p=103.36/1024=0.1
結(jié)構(gòu)化數(shù)據(jù)占比:h=686.13/1024=0.671
(2)對(duì)專利數(shù)據(jù)包的一致性進(jìn)行評(píng)估
利用評(píng)估公式對(duì)該專利數(shù)據(jù)包的評(píng)分進(jìn)行計(jì)算,計(jì)算結(jié)果如下所示:
由于f值只有0.269,所以該專利數(shù)據(jù)包的內(nèi)容的一致性不高,因而在對(duì)該專利數(shù)據(jù)包的價(jià)值進(jìn)行評(píng)估時(shí),它的價(jià)格估值也不會(huì)很高。
【數(shù)據(jù)文件評(píng)估系統(tǒng)】
本發(fā)明的另一實(shí)施例還提供一種評(píng)估系統(tǒng),該系統(tǒng)包括:數(shù)據(jù)采集模塊1,采集待評(píng)估的數(shù)據(jù)文件;類型劃分模塊2,對(duì)采集的數(shù)據(jù)文件的類型進(jìn)行劃分,并計(jì)算每個(gè)類型的數(shù)據(jù)文件在整個(gè)數(shù)據(jù)文件中所占的比例;一致性處理模塊3,利用預(yù)定公式來(lái)確定所述數(shù)據(jù)文件的一致性得分。
具體地,數(shù)據(jù)采集模塊可通過(guò)現(xiàn)有的數(shù)據(jù)采集裝置來(lái)進(jìn)行數(shù)據(jù)采集,例如可通過(guò)網(wǎng)絡(luò)爬蟲(chóng)來(lái)從網(wǎng)絡(luò)中采集數(shù)據(jù)文件,本發(fā)明中的數(shù)據(jù)文件可為包含多個(gè)數(shù)據(jù)文件集合的數(shù)據(jù)包,也可為單個(gè)的文檔,采集的數(shù)據(jù)包可包含JSON,圖片,視頻,音頻等文件,但并不局限于此。
類型劃分模塊在對(duì)數(shù)據(jù)文件的類型進(jìn)行劃分時(shí),按照數(shù)據(jù)類型,將采集的數(shù)據(jù)文件劃分為非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),并計(jì)算這些數(shù)據(jù)類型占整個(gè)文件的大小的比例。具體操作過(guò)程中,可通過(guò)手動(dòng)操作來(lái)劃分?jǐn)?shù)據(jù)類型,可借助于R語(yǔ)言和手動(dòng)操作來(lái)完成各個(gè)類型的比例計(jì)算。
在本發(fā)明的實(shí)施例中,非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)定義如下:非結(jié)構(gòu)化數(shù)據(jù):非結(jié)構(gòu)化數(shù)據(jù)是指沒(méi)有固定結(jié)構(gòu)的數(shù)據(jù),例如,所有格式的辦公文檔、文本、圖片、各類報(bào)表、圖像和音頻、視頻信息。半結(jié)構(gòu)化數(shù)據(jù):半結(jié)構(gòu)化數(shù)據(jù)是指數(shù)據(jù)具有隱含結(jié)構(gòu)但又不是以二維表之類的形式存在的,介于結(jié)構(gòu)化和非結(jié)構(gòu)化知識(shí)源之間的一種知識(shí)源,例如,存儲(chǔ)員工的簡(jiǎn)歷、類似XML、HTML、JSON等文件。結(jié)構(gòu)化數(shù)據(jù):傳統(tǒng)的關(guān)系數(shù)據(jù)模型、行數(shù)據(jù),存儲(chǔ)于數(shù)據(jù)庫(kù),可用二維表結(jié)構(gòu)表示的數(shù)據(jù),例如,存儲(chǔ)于csv,excel的數(shù)據(jù)、二維表。非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)在整個(gè)數(shù)據(jù)文件中所占的比例可分別用q、p和h進(jìn)行表示。
一致性處理模塊在對(duì)數(shù)據(jù)文件的一致性進(jìn)行處理的過(guò)程中,可通過(guò)利用下述一致性評(píng)分公式對(duì)數(shù)據(jù)文件的一致性進(jìn)行評(píng)估:
其中,f是指一致性得分,范圍為[0,1],f值越大,表示數(shù)據(jù)文件的一致性越高,q、p和h分別表示非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的比例,其中q+p+h=1。可通過(guò)一致性處理模塊處理得到的關(guān)于數(shù)據(jù)文件的一致性得分f來(lái)評(píng)估數(shù)據(jù)文件的價(jià)值,一致性得分f與數(shù)據(jù)文件價(jià)值的成正比,如果f值越大,即越接近1,則表示數(shù)據(jù)文件相應(yīng)的估值也越高。
在本發(fā)明中,一致性處理模塊所計(jì)算得到的關(guān)于數(shù)據(jù)文件的一致性得分會(huì)保存在評(píng)估系統(tǒng)的存儲(chǔ)系統(tǒng)中,并會(huì)被傳送至數(shù)據(jù)定價(jià)系統(tǒng)中利用,以為數(shù)據(jù)文件的價(jià)值評(píng)估提供參考依據(jù),估算的數(shù)據(jù)文件的價(jià)值會(huì)在數(shù)據(jù)交易顯示終端或展示平臺(tái),例如,對(duì)于專利數(shù)據(jù)包,會(huì)在顯示有該專利數(shù)據(jù)包的平臺(tái),如專利查詢網(wǎng)站上進(jìn)行顯示,以供相關(guān)人員參考使用。
需要注意的是,數(shù)據(jù)文件的評(píng)估方面有很多,需要綜合考慮各個(gè)方面才能得出數(shù)據(jù)文件的最終估值,本發(fā)明提供的只是估算數(shù)據(jù)文件價(jià)值的一方面,為數(shù)據(jù)文件的估值提供一個(gè)參考依據(jù)。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
盡管已描述了本申請(qǐng)的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本申請(qǐng)范圍的所有變更和修改。
顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本申請(qǐng)實(shí)施例進(jìn)行各種改動(dòng)和變型而不脫離本申請(qǐng)實(shí)施例的精神和范圍。這樣,倘若本申請(qǐng)實(shí)施例的這些修改和變型屬于本申請(qǐng)權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請(qǐng)也意圖包含這些改動(dòng)和變型在內(nèi)。