1.一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法,其特征在于,該方法包括:
根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的屬性信息,將文本數(shù)據(jù)劃分為多個(gè)樣本點(diǎn)集合;其中,每個(gè)樣本點(diǎn)包含至少一個(gè)詞序列;
針對每一個(gè)樣本點(diǎn)集合,從該樣本點(diǎn)集合中選取最少數(shù)目的樣本點(diǎn),使所述最少數(shù)目的樣本點(diǎn)的詞序列覆蓋率高于設(shè)定閾值;其中,所述詞序列覆蓋率為選取的樣本點(diǎn)所包含的不同詞序列的數(shù)目與該樣本點(diǎn)集合需要覆蓋的不同詞序列的數(shù)目的比例;
采用選取的每一個(gè)樣本點(diǎn)集合中的樣本點(diǎn)構(gòu)建應(yīng)用系統(tǒng)。
2.如權(quán)利要求1所述的方法,其特征在于,所述屬性信息包括樣本點(diǎn)的聚類特征;
根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的屬性信息,將文本數(shù)據(jù)劃分為多個(gè)樣本點(diǎn)集合,包括:
根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的聚類特征,將具有相同聚類特征的樣本點(diǎn)劃分為同一個(gè)樣本點(diǎn)集合。
3.如權(quán)利要求1所述的方法,其特征在于,所述屬性信息包括樣本點(diǎn)的前綴詞序列和聚類特征;
根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的屬性信息,將文本數(shù)據(jù)劃分為多個(gè)樣本點(diǎn)集合,包括:
根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的前綴詞序列,將文本數(shù)據(jù)劃分為多個(gè)第一樣本點(diǎn)集合,使每個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第一設(shè)定閾值、且大于第二設(shè)定閾值;
針對劃分后的每個(gè)第一樣本點(diǎn)集合,根據(jù)該第一樣本點(diǎn)集合內(nèi)的各樣本點(diǎn)的聚類特征,將該第一樣本點(diǎn)集合劃分為多個(gè)第二樣本點(diǎn)集合,將劃分后的第二樣本點(diǎn)集合作為從中選取樣本點(diǎn)的樣本點(diǎn)集合;其中,每個(gè)第二樣本點(diǎn)集合中的各樣本點(diǎn)具有相同的聚類特征。
4.如權(quán)利要求3所述的方法,其特征在于,根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的前綴詞序列,將文本數(shù)據(jù)劃分為多個(gè)第一樣本點(diǎn)集合,包括:
按照前綴詞序列的詞數(shù)量由小到大的順序,對所述文本數(shù)據(jù)中的各樣本點(diǎn)逐次劃分,直到劃分后的每個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第一設(shè)定閾值;
若在第一次劃分后,存在至少一個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第二設(shè)定閾值,則將所述至少一個(gè)第一樣本點(diǎn)集合進(jìn)行合并,或?qū)⑺鲋辽僖粋€(gè)第一樣本點(diǎn)集合與其它第一樣本點(diǎn)集合進(jìn)行合并,以使合并后的第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目大于所述第二設(shè)定閾值、且小于所述第一設(shè)定閾值。
5.如權(quán)利要求1所述的方法,其特征在于,針對每一個(gè)樣本點(diǎn)集合,從該樣本點(diǎn)集合中選取最少數(shù)目的樣本點(diǎn),包括:
從該樣本點(diǎn)集合中未被選取的樣本點(diǎn)中,選取包含該樣本點(diǎn)集合需要覆蓋的剩余詞序列數(shù)目最多的樣本點(diǎn),并將選取的樣本點(diǎn)所包含的詞序列從該樣本點(diǎn)集合需要覆蓋的剩余詞序列中刪除;
重復(fù)上述步驟,直到選取的樣本點(diǎn)所包含的不同詞序列的數(shù)目與該樣本點(diǎn)集合需要覆蓋的不同詞序列的數(shù)目的比例超過設(shè)定閾值。
6.如權(quán)利要求1~5任一所述的方法,其特征在于,針對每一個(gè)樣本點(diǎn)集合,根據(jù)以下步驟確定該樣本點(diǎn)集合需要覆蓋的詞序列:
從所述應(yīng)用系統(tǒng)需要覆蓋的詞序列中除去已在其它樣本點(diǎn)集合中選取的樣本點(diǎn)所包含的詞序列,得到剩余需要覆蓋的詞序列;
將該樣本點(diǎn)集合包含的各個(gè)詞序列與得到的所述剩余需要覆蓋的詞序列的交集,確定為該樣本點(diǎn)集合需要覆蓋的詞序列。
7.如權(quán)利要求6所述的方法,其特征在于,針對每一個(gè)樣本點(diǎn)集合,從該樣本點(diǎn)集合中選取所述最少數(shù)目的樣本點(diǎn),還包括:
若該樣本點(diǎn)集合包含的各個(gè)詞序列與得到的所述剩余需要覆蓋的詞序列 的交集為空集,則從該樣本點(diǎn)集合中隨機(jī)選取一個(gè)樣本點(diǎn)作為從該樣本點(diǎn)集合選取的所述最少數(shù)目的樣本點(diǎn)。
8.如權(quán)利要求6所述的方法,其特征在于,根據(jù)以下步驟確定所述應(yīng)用系統(tǒng)需要覆蓋的詞序列:
從用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中提取各個(gè)不同的詞序列;
從提取的詞序列中過濾掉滿足至少一個(gè)預(yù)設(shè)的過濾條件的詞序列,將過濾后的詞序列確定為所述應(yīng)用系統(tǒng)需要覆蓋的詞序列。
9.如權(quán)利要求8所述的方法,其特征在于,所述預(yù)設(shè)的過濾條件包括以下條件中的一種或多種:
在所述文本數(shù)據(jù)中出現(xiàn)的頻次低于設(shè)定閾值;
包含的重復(fù)詞或單字母詞大于第一設(shè)定數(shù)量閾值;
包含的預(yù)設(shè)的高頻詞大于第二設(shè)定數(shù)量閾值。
10.一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建裝置,其特征在于,該裝置包括:
劃分模塊,用于根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的屬性信息,將文本數(shù)據(jù)劃分為多個(gè)樣本點(diǎn)集合;其中,每個(gè)樣本點(diǎn)包含至少一個(gè)詞序列;
選取模塊,用于針對每一個(gè)樣本點(diǎn)集合,從該樣本點(diǎn)集合中選取最少數(shù)目的樣本點(diǎn),使所述最少數(shù)目的樣本點(diǎn)的詞序列覆蓋率高于設(shè)定閾值;其中,所述詞序列覆蓋率為選取的樣本點(diǎn)所包含的不同詞序列的數(shù)目與該樣本點(diǎn)集合需要覆蓋的不同詞序列的數(shù)目的比例;
構(gòu)建模塊,用于采用所述選取模塊選取的每一個(gè)樣本點(diǎn)集合中的樣本點(diǎn)構(gòu)建應(yīng)用系統(tǒng)。
11.如權(quán)利要求10所述的裝置,其特征在于,所述屬性信息包括樣本點(diǎn)的聚類特征;
所述劃分模塊具體用于:
根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的聚類特征,將具有相同聚類特征的樣本點(diǎn)劃分為同一個(gè)樣本點(diǎn)集合。
12.如權(quán)利要求10所述的裝置,其特征在于,所述屬性信息包括樣本點(diǎn)的前綴詞序列和聚類特征;
所述劃分模塊具體用于:
根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的前綴詞序列,將文本數(shù)據(jù)劃分為多個(gè)第一樣本點(diǎn)集合,使每個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第一設(shè)定閾值、且大于第二設(shè)定閾值;針對劃分后的每個(gè)第一樣本點(diǎn)集合,根據(jù)該第一樣本點(diǎn)集合內(nèi)的各樣本點(diǎn)的聚類特征,將該第一樣本點(diǎn)集合劃分為多個(gè)第二樣本點(diǎn)集合,將劃分后的第二樣本點(diǎn)集合作為從中選取樣本點(diǎn)的樣本點(diǎn)集合;其中,每個(gè)第二樣本點(diǎn)集合中的各樣本點(diǎn)具有相同的聚類特征。
13.如權(quán)利要求12所述的裝置,其特征在于,所述劃分模塊具體用于:
按照前綴詞序列的詞數(shù)量由小到大的順序,對所述文本數(shù)據(jù)中的各樣本點(diǎn)逐次劃分,直到劃分后的每個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第一設(shè)定閾值;若在第一次劃分后,存在至少一個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第二設(shè)定閾值,則將所述至少一個(gè)第一樣本點(diǎn)集合進(jìn)行合并,或?qū)⑺鲋辽僖粋€(gè)第一樣本點(diǎn)集合與其它第一樣本點(diǎn)集合進(jìn)行合并,以使合并后的第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目大于所述第二設(shè)定閾值、且小于所述第一設(shè)定閾值。
14.如權(quán)利要求10所述的裝置,其特征在于,所述選取模塊具體用于:
從該樣本點(diǎn)集合中未被選取的樣本點(diǎn)中,選取包含該樣本點(diǎn)集合需要覆蓋的剩余詞序列數(shù)目最多的樣本點(diǎn),并將選取的樣本點(diǎn)所包含的詞序列從該樣本點(diǎn)集合需要覆蓋的剩余詞序列中刪除;重復(fù)該步驟,直到選取的樣本點(diǎn)所包含的不同詞序列的數(shù)目與該樣本點(diǎn)集合需要覆蓋的不同詞序列的數(shù)目的比例超過設(shè)定閾值。
15.如權(quán)利要求10~14任一所述的裝置,其特征在于,針對每一個(gè)樣本點(diǎn)集合,所述選取模塊具體用于根據(jù)以下步驟確定該樣本點(diǎn)集合需要覆蓋的詞序列:
從所述應(yīng)用系統(tǒng)需要覆蓋的詞序列中除去已在其它樣本點(diǎn)集合中選取的 樣本點(diǎn)所包含的詞序列,得到剩余需要覆蓋的詞序列;將該樣本點(diǎn)集合包含的各個(gè)詞序列與得到的所述剩余需要覆蓋的詞序列的交集,確定為該樣本點(diǎn)集合需要覆蓋的詞序列。
16.如權(quán)利要求15所述的裝置,其特征在于,所述選取模塊還用于,
針對每一個(gè)樣本點(diǎn)集合,若該樣本點(diǎn)集合包含的各個(gè)詞序列與得到的所述剩余需要覆蓋的詞序列的交集為空集,則從該樣本點(diǎn)集合中隨機(jī)選取一個(gè)樣本點(diǎn)作為從該樣本點(diǎn)集合選取的所述最少數(shù)目的樣本點(diǎn)。
17.如權(quán)利要求15所述的裝置,其特征在于,所述選取模塊具體用于根據(jù)以下步驟確定所述應(yīng)用系統(tǒng)需要覆蓋的詞序列:
從用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中提取各個(gè)不同的詞序列;從提取的詞序列中過濾掉滿足至少一個(gè)預(yù)設(shè)的過濾條件的詞序列,將過濾后的詞序列確定為所述應(yīng)用系統(tǒng)需要覆蓋的詞序列。
18.如權(quán)利要求17所述的裝置,其特征在于,所述預(yù)設(shè)的過濾條件包括以下條件中的一種或多種:
在所述文本數(shù)據(jù)中出現(xiàn)的頻次低于設(shè)定閾值;
包含的重復(fù)詞或單字母詞大于第一設(shè)定數(shù)量閾值;
包含的預(yù)設(shè)的高頻詞大于第二設(shè)定數(shù)量閾值。