一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法及裝置與流程

文檔序號(hào)：12597500閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法及裝置與流程

技術(shù)特征：

1.一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法，其特征在于，該方法包括：

根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的屬性信息，將文本數(shù)據(jù)劃分為多個(gè)樣本點(diǎn)集合；其中，每個(gè)樣本點(diǎn)包含至少一個(gè)詞序列；

針對每一個(gè)樣本點(diǎn)集合，從該樣本點(diǎn)集合中選取最少數(shù)目的樣本點(diǎn)，使所述最少數(shù)目的樣本點(diǎn)的詞序列覆蓋率高于設(shè)定閾值；其中，所述詞序列覆蓋率為選取的樣本點(diǎn)所包含的不同詞序列的數(shù)目與該樣本點(diǎn)集合需要覆蓋的不同詞序列的數(shù)目的比例；

采用選取的每一個(gè)樣本點(diǎn)集合中的樣本點(diǎn)構(gòu)建應(yīng)用系統(tǒng)。

2.如權(quán)利要求1所述的方法，其特征在于，所述屬性信息包括樣本點(diǎn)的聚類特征；

根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的屬性信息，將文本數(shù)據(jù)劃分為多個(gè)樣本點(diǎn)集合，包括：

根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的聚類特征，將具有相同聚類特征的樣本點(diǎn)劃分為同一個(gè)樣本點(diǎn)集合。

3.如權(quán)利要求1所述的方法，其特征在于，所述屬性信息包括樣本點(diǎn)的前綴詞序列和聚類特征；

針對劃分后的每個(gè)第一樣本點(diǎn)集合，根據(jù)該第一樣本點(diǎn)集合內(nèi)的各樣本點(diǎn)的聚類特征，將該第一樣本點(diǎn)集合劃分為多個(gè)第二樣本點(diǎn)集合，將劃分后的第二樣本點(diǎn)集合作為從中選取樣本點(diǎn)的樣本點(diǎn)集合；其中，每個(gè)第二樣本點(diǎn)集合中的各樣本點(diǎn)具有相同的聚類特征。

4.如權(quán)利要求3所述的方法，其特征在于，根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的前綴詞序列，將文本數(shù)據(jù)劃分為多個(gè)第一樣本點(diǎn)集合，包括：

按照前綴詞序列的詞數(shù)量由小到大的順序，對所述文本數(shù)據(jù)中的各樣本點(diǎn)逐次劃分，直到劃分后的每個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第一設(shè)定閾值；

若在第一次劃分后，存在至少一個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第二設(shè)定閾值，則將所述至少一個(gè)第一樣本點(diǎn)集合進(jìn)行合并，或?qū)⑺鲋辽僖粋€(gè)第一樣本點(diǎn)集合與其它第一樣本點(diǎn)集合進(jìn)行合并，以使合并后的第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目大于所述第二設(shè)定閾值、且小于所述第一設(shè)定閾值。

5.如權(quán)利要求1所述的方法，其特征在于，針對每一個(gè)樣本點(diǎn)集合，從該樣本點(diǎn)集合中選取最少數(shù)目的樣本點(diǎn)，包括：

從該樣本點(diǎn)集合中未被選取的樣本點(diǎn)中，選取包含該樣本點(diǎn)集合需要覆蓋的剩余詞序列數(shù)目最多的樣本點(diǎn)，并將選取的樣本點(diǎn)所包含的詞序列從該樣本點(diǎn)集合需要覆蓋的剩余詞序列中刪除；

重復(fù)上述步驟，直到選取的樣本點(diǎn)所包含的不同詞序列的數(shù)目與該樣本點(diǎn)集合需要覆蓋的不同詞序列的數(shù)目的比例超過設(shè)定閾值。

6.如權(quán)利要求1～5任一所述的方法，其特征在于，針對每一個(gè)樣本點(diǎn)集合，根據(jù)以下步驟確定該樣本點(diǎn)集合需要覆蓋的詞序列：

從所述應(yīng)用系統(tǒng)需要覆蓋的詞序列中除去已在其它樣本點(diǎn)集合中選取的樣本點(diǎn)所包含的詞序列，得到剩余需要覆蓋的詞序列；

將該樣本點(diǎn)集合包含的各個(gè)詞序列與得到的所述剩余需要覆蓋的詞序列的交集，確定為該樣本點(diǎn)集合需要覆蓋的詞序列。

7.如權(quán)利要求6所述的方法，其特征在于，針對每一個(gè)樣本點(diǎn)集合，從該樣本點(diǎn)集合中選取所述最少數(shù)目的樣本點(diǎn)，還包括：

若該樣本點(diǎn)集合包含的各個(gè)詞序列與得到的所述剩余需要覆蓋的詞序列的交集為空集，則從該樣本點(diǎn)集合中隨機(jī)選取一個(gè)樣本點(diǎn)作為從該樣本點(diǎn)集合選取的所述最少數(shù)目的樣本點(diǎn)。

8.如權(quán)利要求6所述的方法，其特征在于，根據(jù)以下步驟確定所述應(yīng)用系統(tǒng)需要覆蓋的詞序列：

從用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中提取各個(gè)不同的詞序列；

從提取的詞序列中過濾掉滿足至少一個(gè)預(yù)設(shè)的過濾條件的詞序列，將過濾后的詞序列確定為所述應(yīng)用系統(tǒng)需要覆蓋的詞序列。

9.如權(quán)利要求8所述的方法，其特征在于，所述預(yù)設(shè)的過濾條件包括以下條件中的一種或多種：

在所述文本數(shù)據(jù)中出現(xiàn)的頻次低于設(shè)定閾值；

包含的重復(fù)詞或單字母詞大于第一設(shè)定數(shù)量閾值；

包含的預(yù)設(shè)的高頻詞大于第二設(shè)定數(shù)量閾值。

10.一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建裝置，其特征在于，該裝置包括：

劃分模塊，用于根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的屬性信息，將文本數(shù)據(jù)劃分為多個(gè)樣本點(diǎn)集合；其中，每個(gè)樣本點(diǎn)包含至少一個(gè)詞序列；

選取模塊，用于針對每一個(gè)樣本點(diǎn)集合，從該樣本點(diǎn)集合中選取最少數(shù)目的樣本點(diǎn)，使所述最少數(shù)目的樣本點(diǎn)的詞序列覆蓋率高于設(shè)定閾值；其中，所述詞序列覆蓋率為選取的樣本點(diǎn)所包含的不同詞序列的數(shù)目與該樣本點(diǎn)集合需要覆蓋的不同詞序列的數(shù)目的比例；

構(gòu)建模塊，用于采用所述選取模塊選取的每一個(gè)樣本點(diǎn)集合中的樣本點(diǎn)構(gòu)建應(yīng)用系統(tǒng)。

11.如權(quán)利要求10所述的裝置，其特征在于，所述屬性信息包括樣本點(diǎn)的聚類特征；

所述劃分模塊具體用于：

12.如權(quán)利要求10所述的裝置，其特征在于，所述屬性信息包括樣本點(diǎn)的前綴詞序列和聚類特征；

所述劃分模塊具體用于：

根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點(diǎn)的前綴詞序列，將文本數(shù)據(jù)劃分為多個(gè)第一樣本點(diǎn)集合，使每個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第一設(shè)定閾值、且大于第二設(shè)定閾值；針對劃分后的每個(gè)第一樣本點(diǎn)集合，根據(jù)該第一樣本點(diǎn)集合內(nèi)的各樣本點(diǎn)的聚類特征，將該第一樣本點(diǎn)集合劃分為多個(gè)第二樣本點(diǎn)集合，將劃分后的第二樣本點(diǎn)集合作為從中選取樣本點(diǎn)的樣本點(diǎn)集合；其中，每個(gè)第二樣本點(diǎn)集合中的各樣本點(diǎn)具有相同的聚類特征。

13.如權(quán)利要求12所述的裝置，其特征在于，所述劃分模塊具體用于：

按照前綴詞序列的詞數(shù)量由小到大的順序，對所述文本數(shù)據(jù)中的各樣本點(diǎn)逐次劃分，直到劃分后的每個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第一設(shè)定閾值；若在第一次劃分后，存在至少一個(gè)第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目小于第二設(shè)定閾值，則將所述至少一個(gè)第一樣本點(diǎn)集合進(jìn)行合并，或?qū)⑺鲋辽僖粋€(gè)第一樣本點(diǎn)集合與其它第一樣本點(diǎn)集合進(jìn)行合并，以使合并后的第一樣本點(diǎn)集合內(nèi)的樣本點(diǎn)數(shù)目大于所述第二設(shè)定閾值、且小于所述第一設(shè)定閾值。

14.如權(quán)利要求10所述的裝置，其特征在于，所述選取模塊具體用于：

從該樣本點(diǎn)集合中未被選取的樣本點(diǎn)中，選取包含該樣本點(diǎn)集合需要覆蓋的剩余詞序列數(shù)目最多的樣本點(diǎn)，并將選取的樣本點(diǎn)所包含的詞序列從該樣本點(diǎn)集合需要覆蓋的剩余詞序列中刪除；重復(fù)該步驟，直到選取的樣本點(diǎn)所包含的不同詞序列的數(shù)目與該樣本點(diǎn)集合需要覆蓋的不同詞序列的數(shù)目的比例超過設(shè)定閾值。

15.如權(quán)利要求10～14任一所述的裝置，其特征在于，針對每一個(gè)樣本點(diǎn)集合，所述選取模塊具體用于根據(jù)以下步驟確定該樣本點(diǎn)集合需要覆蓋的詞序列：

從所述應(yīng)用系統(tǒng)需要覆蓋的詞序列中除去已在其它樣本點(diǎn)集合中選取的樣本點(diǎn)所包含的詞序列，得到剩余需要覆蓋的詞序列；將該樣本點(diǎn)集合包含的各個(gè)詞序列與得到的所述剩余需要覆蓋的詞序列的交集，確定為該樣本點(diǎn)集合需要覆蓋的詞序列。

16.如權(quán)利要求15所述的裝置，其特征在于，所述選取模塊還用于，

針對每一個(gè)樣本點(diǎn)集合，若該樣本點(diǎn)集合包含的各個(gè)詞序列與得到的所述剩余需要覆蓋的詞序列的交集為空集，則從該樣本點(diǎn)集合中隨機(jī)選取一個(gè)樣本點(diǎn)作為從該樣本點(diǎn)集合選取的所述最少數(shù)目的樣本點(diǎn)。

17.如權(quán)利要求15所述的裝置，其特征在于，所述選取模塊具體用于根據(jù)以下步驟確定所述應(yīng)用系統(tǒng)需要覆蓋的詞序列：

從用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中提取各個(gè)不同的詞序列；從提取的詞序列中過濾掉滿足至少一個(gè)預(yù)設(shè)的過濾條件的詞序列，將過濾后的詞序列確定為所述應(yīng)用系統(tǒng)需要覆蓋的詞序列。

18.如權(quán)利要求17所述的裝置，其特征在于，所述預(yù)設(shè)的過濾條件包括以下條件中的一種或多種：

在所述文本數(shù)據(jù)中出現(xiàn)的頻次低于設(shè)定閾值；

包含的重復(fù)詞或單字母詞大于第一設(shè)定數(shù)量閾值；

包含的預(yù)設(shè)的高頻詞大于第二設(shè)定數(shù)量閾值。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

大數(shù)據(jù)決策支持系統(tǒng)相關(guān)技術(shù)

數(shù)據(jù)庫應(yīng)用系統(tǒng)開發(fā)相關(guān)技術(shù)

數(shù)據(jù)庫應(yīng)用系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法及裝置與流程