1.一種基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估方法,其特征在于,包括:
采集待評(píng)估的數(shù)據(jù)文件;
對(duì)采集的數(shù)據(jù)文件的類型進(jìn)行劃分,并確定每個(gè)類型的數(shù)據(jù)文件在整個(gè)數(shù)據(jù)文件中所占的比例;
利用預(yù)設(shè)的處理方法對(duì)所述數(shù)據(jù)文件的一致性進(jìn)行處理。
2.根據(jù)權(quán)利要求1所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估方法,其特征在于,所述數(shù)據(jù)文件按照類型劃分為非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估方法,其特征在于,所述預(yù)設(shè)處理方法利用下述公式來對(duì)所述數(shù)據(jù)文件的一致性進(jìn)行處理:
其中,所述f為數(shù)據(jù)文件的一致性得分,取值范圍為[0,1];所述q、p和h分別表示非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)在整個(gè)數(shù)據(jù)文件中的比例,其中,q+p+h=1。
4.根據(jù)權(quán)利要求3所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估方法,其特征在于,所述f值與所述數(shù)據(jù)文件的評(píng)估價(jià)值成正比。
5.根據(jù)權(quán)利要求1所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估方法,其特征在于,所述數(shù)據(jù)文件為包含多個(gè)數(shù)據(jù)文件集合的數(shù)據(jù)包或者為單個(gè)的文檔。
6.根據(jù)權(quán)利要求2所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估方法,其特征在于,所述非結(jié)構(gòu)化數(shù)據(jù)是指沒有固定結(jié)構(gòu)的數(shù)據(jù),包括辦公文檔、文本、圖片、各類報(bào)表、圖像和音頻、視頻信息。
7.根據(jù)權(quán)利要求2所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估方法,其特征在于,所述半結(jié)構(gòu)化數(shù)據(jù)是指數(shù)據(jù)具有隱含結(jié)構(gòu)但又不是以二維表之類的形式存在的數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估方法,其特征在于,所述半結(jié)構(gòu)化數(shù)據(jù)包括存儲(chǔ)員工的簡(jiǎn)歷、類似XML、HTML、JSON等文件。
9.根據(jù)權(quán)利要求2所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估方法,其特征在于,所述結(jié)構(gòu)化數(shù)據(jù)是指?jìng)鹘y(tǒng)的關(guān)系數(shù)據(jù)模型、行數(shù)據(jù),存儲(chǔ)于數(shù)據(jù)庫,可用二維表結(jié)構(gòu)表示的數(shù)據(jù)。
10.根據(jù)權(quán)利要求9所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估方法,其特征在于,所述結(jié)構(gòu)化數(shù)據(jù)包括存儲(chǔ)于csv,excel的數(shù)據(jù)和二維表。
11.根據(jù)權(quán)利要求1至10任一項(xiàng)所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估方法,其特征在于,通過R語言和手動(dòng)操作來確定每個(gè)類型的數(shù)據(jù)文件在整個(gè)數(shù)據(jù)文件中所占的比例。
12.根據(jù)權(quán)利要求1至10任一項(xiàng)所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估方法,其特征在于,通過網(wǎng)絡(luò)爬蟲來從網(wǎng)絡(luò)中采集所述數(shù)據(jù)文件。
13.一種基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估系統(tǒng),其特征在于,包括:
數(shù)據(jù)采集模塊,采集待評(píng)估的數(shù)據(jù)文件;
類型劃分模塊,對(duì)采集的數(shù)據(jù)文件的類型進(jìn)行劃分,并確定每個(gè)類型的數(shù)據(jù)文件在整個(gè)數(shù)據(jù)文件中所占的比例;
一致性處理模塊,利用預(yù)設(shè)的處理方法對(duì)所述數(shù)據(jù)文件的一致性進(jìn)行處理。
14.根據(jù)權(quán)利要求13所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估系統(tǒng),其特征在于,所述類型劃分模塊按照類型將所述數(shù)據(jù)文件劃分為非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)。
15.根據(jù)權(quán)利要求14所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估系統(tǒng),其特征在于,所述一致性處理模塊通過利用下述公式來對(duì)所述數(shù)據(jù)文件的一致性進(jìn)行處理:
其中,所述f為數(shù)據(jù)文件的一致性得分,取值范圍為[0,1];所述q、p和h分別表示非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)在整個(gè)數(shù)據(jù)文件中的比例,,其中,q+p+h=1。
16.根據(jù)權(quán)利要求15所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估系統(tǒng),其特征在于,所述f值與所述數(shù)據(jù)文件的評(píng)估價(jià)值成正比。
17.根據(jù)權(quán)利要求13所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估系統(tǒng),其特征在于,所述數(shù)據(jù)文件為包含多個(gè)數(shù)據(jù)文件集合的數(shù)據(jù)包或者為單個(gè)的文檔。
18.根據(jù)權(quán)利要求14所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估系統(tǒng),其特征在于,所述非結(jié)構(gòu)化數(shù)據(jù)是指沒有固定結(jié)構(gòu)的數(shù)據(jù),包括辦公文檔、文本、圖片、各類報(bào)表、圖像和音頻、視頻信息。
19.根據(jù)權(quán)利要求14所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估系統(tǒng),其特征在于,所述半結(jié)構(gòu)化數(shù)據(jù)是指數(shù)據(jù)具有隱含結(jié)構(gòu)但又不是以二維表之類的形式存在的數(shù)據(jù)。
20.根據(jù)權(quán)利要求19所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估系統(tǒng),其特征在于,所述半結(jié)構(gòu)化數(shù)據(jù)包括存儲(chǔ)員工的簡(jiǎn)歷、類似XML、HTML、JSON等文件。
21.根據(jù)權(quán)利要求14所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估系統(tǒng),其特征在于,所述結(jié)構(gòu)化數(shù)據(jù)是指?jìng)鹘y(tǒng)的關(guān)系數(shù)據(jù)模型、行數(shù)據(jù),存儲(chǔ)于數(shù)據(jù)庫,可用二維表結(jié)構(gòu)表示的數(shù)據(jù)。
22.根據(jù)權(quán)利要求21所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估系統(tǒng),其特征在于,所述結(jié)構(gòu)化數(shù)據(jù)包括存儲(chǔ)于csv,excel的數(shù)據(jù)和二維表。
23.根據(jù)權(quán)利要求13至22任一項(xiàng)所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估系統(tǒng),其特征在于,所述類型劃分模塊通過R語言和手動(dòng)操作來確定每個(gè)類型的數(shù)據(jù)文件在整個(gè)數(shù)據(jù)文件中所占的比例。
24.根據(jù)權(quán)利要求13至22任一項(xiàng)所述的基于一致性的數(shù)據(jù)文件價(jià)值評(píng)估系統(tǒng),其特征在于,所述數(shù)據(jù)采集模塊通過網(wǎng)絡(luò)爬蟲來從網(wǎng)絡(luò)中采集所述數(shù)據(jù)文件。