1.一種確定語料的來源的方法,適于在計算設(shè)備中執(zhí)行,所述計算設(shè)備與語料樣本存儲設(shè)備相耦接,所述語料樣本存儲設(shè)備存儲來自至少一個來源的語料樣本,所述方法包括步驟:
從語料樣本存儲設(shè)備中獲取至少一個來源的語料樣本;
對每個來源的語料樣本,
將該語料樣本和要確定來源的語料組合在一起,并按照預定編碼算法進行數(shù)據(jù)壓縮,以生成一個壓縮文件;
計算每個壓縮文件的壓縮率;以及
將所獲得的至少一個壓縮文件中、壓縮率最高的一個壓縮文件所對應(yīng)的來源確定為所述要確定來源的語料的來源。
2.如權(quán)利要求1所述的方法,其中,還包括步驟:
在將該語料樣本和要確定來源的語料組合在一起之后,
對組合在一起的語料樣本和要確定來源的語料按照詞語或短句進行分割。
3.如權(quán)利要求1所述的方法,其中,所述語料樣本被按照詞語或短句進行分割,所述方法還包括步驟:
在將該語料樣本和要確定來源的語料組合在一起之前,
對所述要確定來源的語料按照與所述語料樣本相同的方式進行分割。
4.如權(quán)利要求1-3中任一項所述的方法,其中,計算壓縮文件的壓縮率的步驟還包括:
根據(jù)壓縮文件的大小、該壓縮文件所包含的語料樣本和要確定來源的語料的大小計算該壓縮文件的壓縮率。
5.如權(quán)利要求4所述的方法,其中,計算壓縮文件的壓縮率公式如下:
壓縮率=1-壓縮文件大小/(語料樣本大小+要確定來源的語料大小)。
6.一種確定語料的來源的設(shè)備,與語料樣本存儲設(shè)備相耦接,所述語料樣本存儲設(shè)備存儲來自至少一個來源的語料樣本,所述確定語料的來源的設(shè)備包括:
樣本獲取模塊,適于從語料樣本存儲設(shè)備中獲取至少一個來源的語料樣本;
語料壓縮模塊,適于對每個來源的語料樣本,將該語料樣本和要確定來源的語料組合在一起,并按照預定編碼算法進行數(shù)據(jù)壓縮,以生成一個壓縮文件;
比率計算模塊,適于對語料壓縮模塊生成的每個壓縮文件,計算該壓縮文件的壓縮率;以及
來源確定模塊,適于將所獲得的至少一個壓縮文件中、壓縮率最高的一個壓縮文件所對應(yīng)的來源確定為所述要確定來源的語料的來源。
7.如權(quán)利要求6所述的設(shè)備,其中,所述語料壓縮模塊還適于
在將該語料樣本和要確定來源的語料組合在一起之后,
對組合在一起的語料樣本和要確定來源的語料按照詞語或短句進行分割。
8.如權(quán)利要求6所述的設(shè)備,其中,所述語料樣本被按照詞語或短句進行分割,所述語料壓縮模塊還適于
在將該語料樣本和要確定來源的語料組合在一起之前,
對所述要確定來源的語料按照與所述語料樣本相同的方式進行分割。
9.如權(quán)利要求6-8中任一項所述的設(shè)備,其中,所述比率計算模塊還適于
根據(jù)壓縮文件的大小、該壓縮文件所包含的語料樣本和要確定來源的語料的大小計算該壓縮文件的壓縮率。
10.一種計算設(shè)備,包括:
至少一個處理器;以及
包括計算機程序指令的至少一個存儲器;
所述至少一個存儲器和所述計算機程序指令被配置為與所述至少一個處理器一起使得所述計算設(shè)備執(zhí)行如權(quán)利要求1-5中任一項所述的方法。