亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法及裝置與流程

文檔序號(hào):12597500閱讀:來源:國知局

技術(shù)特征:

1.一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法,其特征在于,該方法包括:

根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的屬性信息,將文本數(shù)據(jù)劃分為多個(gè)樣本點(diǎn)集合;其中,每個(gè)樣本點(diǎn)包含至少一個(gè)詞序列;

針對每一個(gè)樣本點(diǎn)集合,從該樣本點(diǎn)集合中選取最少數(shù)目的樣本點(diǎn),使所述最少數(shù)目的樣本點(diǎn)的詞序列覆蓋率高于設(shè)定閾值;其中,所述詞序列覆蓋率為選取的樣本點(diǎn)所包含的不同詞序列的數(shù)目與該樣本點(diǎn)集合需要覆蓋的不同詞序列的數(shù)目的比例;

采用選取的每一個(gè)樣本點(diǎn)集合中的樣本點(diǎn)構(gòu)建應(yīng)用系統(tǒng)。

2.如權(quán)利要求1所述的方法,其特征在于,所述屬性信息包括樣本點(diǎn)的聚類特征;

根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的屬性信息,將文本數(shù)據(jù)劃分為多個(gè)樣本點(diǎn)集合,包括:

根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的聚類特征,將具有相同聚類特征的樣本點(diǎn)劃分為同一個(gè)樣本點(diǎn)集合。

3.如權(quán)利要求1所述的方法,其特征在于,所述屬性信息包括樣本點(diǎn)的前綴詞序列和聚類特征;

根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的屬性信息,將文本數(shù)據(jù)劃分為多個(gè)樣本點(diǎn)集合,包括:

根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的前綴詞序列,將文本數(shù)據(jù)劃分為多個(gè)第一樣本點(diǎn)集合,使每個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第一設(shè)定閾值、且大于第二設(shè)定閾值;

針對劃分后的每個(gè)第一樣本點(diǎn)集合,根據(jù)該第一樣本點(diǎn)集合內(nèi)的各樣本點(diǎn)的聚類特征,將該第一樣本點(diǎn)集合劃分為多個(gè)第二樣本點(diǎn)集合,將劃分后的第二樣本點(diǎn)集合作為從中選取樣本點(diǎn)的樣本點(diǎn)集合;其中,每個(gè)第二樣本點(diǎn)集合中的各樣本點(diǎn)具有相同的聚類特征。

4.如權(quán)利要求3所述的方法,其特征在于,根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的前綴詞序列,將文本數(shù)據(jù)劃分為多個(gè)第一樣本點(diǎn)集合,包括:

按照前綴詞序列的詞數(shù)量由小到大的順序,對所述文本數(shù)據(jù)中的各樣本點(diǎn)逐次劃分,直到劃分后的每個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第一設(shè)定閾值;

若在第一次劃分后,存在至少一個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第二設(shè)定閾值,則將所述至少一個(gè)第一樣本點(diǎn)集合進(jìn)行合并,或?qū)⑺鲋辽僖粋€(gè)第一樣本點(diǎn)集合與其它第一樣本點(diǎn)集合進(jìn)行合并,以使合并后的第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目大于所述第二設(shè)定閾值、且小于所述第一設(shè)定閾值。

5.如權(quán)利要求1所述的方法,其特征在于,針對每一個(gè)樣本點(diǎn)集合,從該樣本點(diǎn)集合中選取最少數(shù)目的樣本點(diǎn),包括:

從該樣本點(diǎn)集合中未被選取的樣本點(diǎn)中,選取包含該樣本點(diǎn)集合需要覆蓋的剩余詞序列數(shù)目最多的樣本點(diǎn),并將選取的樣本點(diǎn)所包含的詞序列從該樣本點(diǎn)集合需要覆蓋的剩余詞序列中刪除;

重復(fù)上述步驟,直到選取的樣本點(diǎn)所包含的不同詞序列的數(shù)目與該樣本點(diǎn)集合需要覆蓋的不同詞序列的數(shù)目的比例超過設(shè)定閾值。

6.如權(quán)利要求1~5任一所述的方法,其特征在于,針對每一個(gè)樣本點(diǎn)集合,根據(jù)以下步驟確定該樣本點(diǎn)集合需要覆蓋的詞序列:

從所述應(yīng)用系統(tǒng)需要覆蓋的詞序列中除去已在其它樣本點(diǎn)集合中選取的樣本點(diǎn)所包含的詞序列,得到剩余需要覆蓋的詞序列;

將該樣本點(diǎn)集合包含的各個(gè)詞序列與得到的所述剩余需要覆蓋的詞序列的交集,確定為該樣本點(diǎn)集合需要覆蓋的詞序列。

7.如權(quán)利要求6所述的方法,其特征在于,針對每一個(gè)樣本點(diǎn)集合,從該樣本點(diǎn)集合中選取所述最少數(shù)目的樣本點(diǎn),還包括:

若該樣本點(diǎn)集合包含的各個(gè)詞序列與得到的所述剩余需要覆蓋的詞序列 的交集為空集,則從該樣本點(diǎn)集合中隨機(jī)選取一個(gè)樣本點(diǎn)作為從該樣本點(diǎn)集合選取的所述最少數(shù)目的樣本點(diǎn)。

8.如權(quán)利要求6所述的方法,其特征在于,根據(jù)以下步驟確定所述應(yīng)用系統(tǒng)需要覆蓋的詞序列:

從用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中提取各個(gè)不同的詞序列;

從提取的詞序列中過濾掉滿足至少一個(gè)預(yù)設(shè)的過濾條件的詞序列,將過濾后的詞序列確定為所述應(yīng)用系統(tǒng)需要覆蓋的詞序列。

9.如權(quán)利要求8所述的方法,其特征在于,所述預(yù)設(shè)的過濾條件包括以下條件中的一種或多種:

在所述文本數(shù)據(jù)中出現(xiàn)的頻次低于設(shè)定閾值;

包含的重復(fù)詞或單字母詞大于第一設(shè)定數(shù)量閾值;

包含的預(yù)設(shè)的高頻詞大于第二設(shè)定數(shù)量閾值。

10.一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建裝置,其特征在于,該裝置包括:

劃分模塊,用于根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的屬性信息,將文本數(shù)據(jù)劃分為多個(gè)樣本點(diǎn)集合;其中,每個(gè)樣本點(diǎn)包含至少一個(gè)詞序列;

選取模塊,用于針對每一個(gè)樣本點(diǎn)集合,從該樣本點(diǎn)集合中選取最少數(shù)目的樣本點(diǎn),使所述最少數(shù)目的樣本點(diǎn)的詞序列覆蓋率高于設(shè)定閾值;其中,所述詞序列覆蓋率為選取的樣本點(diǎn)所包含的不同詞序列的數(shù)目與該樣本點(diǎn)集合需要覆蓋的不同詞序列的數(shù)目的比例;

構(gòu)建模塊,用于采用所述選取模塊選取的每一個(gè)樣本點(diǎn)集合中的樣本點(diǎn)構(gòu)建應(yīng)用系統(tǒng)。

11.如權(quán)利要求10所述的裝置,其特征在于,所述屬性信息包括樣本點(diǎn)的聚類特征;

所述劃分模塊具體用于:

根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的聚類特征,將具有相同聚類特征的樣本點(diǎn)劃分為同一個(gè)樣本點(diǎn)集合。

12.如權(quán)利要求10所述的裝置,其特征在于,所述屬性信息包括樣本點(diǎn)的前綴詞序列和聚類特征;

所述劃分模塊具體用于:

根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的前綴詞序列,將文本數(shù)據(jù)劃分為多個(gè)第一樣本點(diǎn)集合,使每個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第一設(shè)定閾值、且大于第二設(shè)定閾值;針對劃分后的每個(gè)第一樣本點(diǎn)集合,根據(jù)該第一樣本點(diǎn)集合內(nèi)的各樣本點(diǎn)的聚類特征,將該第一樣本點(diǎn)集合劃分為多個(gè)第二樣本點(diǎn)集合,將劃分后的第二樣本點(diǎn)集合作為從中選取樣本點(diǎn)的樣本點(diǎn)集合;其中,每個(gè)第二樣本點(diǎn)集合中的各樣本點(diǎn)具有相同的聚類特征。

13.如權(quán)利要求12所述的裝置,其特征在于,所述劃分模塊具體用于:

按照前綴詞序列的詞數(shù)量由小到大的順序,對所述文本數(shù)據(jù)中的各樣本點(diǎn)逐次劃分,直到劃分后的每個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第一設(shè)定閾值;若在第一次劃分后,存在至少一個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第二設(shè)定閾值,則將所述至少一個(gè)第一樣本點(diǎn)集合進(jìn)行合并,或?qū)⑺鲋辽僖粋€(gè)第一樣本點(diǎn)集合與其它第一樣本點(diǎn)集合進(jìn)行合并,以使合并后的第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目大于所述第二設(shè)定閾值、且小于所述第一設(shè)定閾值。

14.如權(quán)利要求10所述的裝置,其特征在于,所述選取模塊具體用于:

從該樣本點(diǎn)集合中未被選取的樣本點(diǎn)中,選取包含該樣本點(diǎn)集合需要覆蓋的剩余詞序列數(shù)目最多的樣本點(diǎn),并將選取的樣本點(diǎn)所包含的詞序列從該樣本點(diǎn)集合需要覆蓋的剩余詞序列中刪除;重復(fù)該步驟,直到選取的樣本點(diǎn)所包含的不同詞序列的數(shù)目與該樣本點(diǎn)集合需要覆蓋的不同詞序列的數(shù)目的比例超過設(shè)定閾值。

15.如權(quán)利要求10~14任一所述的裝置,其特征在于,針對每一個(gè)樣本點(diǎn)集合,所述選取模塊具體用于根據(jù)以下步驟確定該樣本點(diǎn)集合需要覆蓋的詞序列:

從所述應(yīng)用系統(tǒng)需要覆蓋的詞序列中除去已在其它樣本點(diǎn)集合中選取的 樣本點(diǎn)所包含的詞序列,得到剩余需要覆蓋的詞序列;將該樣本點(diǎn)集合包含的各個(gè)詞序列與得到的所述剩余需要覆蓋的詞序列的交集,確定為該樣本點(diǎn)集合需要覆蓋的詞序列。

16.如權(quán)利要求15所述的裝置,其特征在于,所述選取模塊還用于,

針對每一個(gè)樣本點(diǎn)集合,若該樣本點(diǎn)集合包含的各個(gè)詞序列與得到的所述剩余需要覆蓋的詞序列的交集為空集,則從該樣本點(diǎn)集合中隨機(jī)選取一個(gè)樣本點(diǎn)作為從該樣本點(diǎn)集合選取的所述最少數(shù)目的樣本點(diǎn)。

17.如權(quán)利要求15所述的裝置,其特征在于,所述選取模塊具體用于根據(jù)以下步驟確定所述應(yīng)用系統(tǒng)需要覆蓋的詞序列:

從用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中提取各個(gè)不同的詞序列;從提取的詞序列中過濾掉滿足至少一個(gè)預(yù)設(shè)的過濾條件的詞序列,將過濾后的詞序列確定為所述應(yīng)用系統(tǒng)需要覆蓋的詞序列。

18.如權(quán)利要求17所述的裝置,其特征在于,所述預(yù)設(shè)的過濾條件包括以下條件中的一種或多種:

在所述文本數(shù)據(jù)中出現(xiàn)的頻次低于設(shè)定閾值;

包含的重復(fù)詞或單字母詞大于第一設(shè)定數(shù)量閾值;

包含的預(yù)設(shè)的高頻詞大于第二設(shè)定數(shù)量閾值。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1