亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于圖紙排版的文本斷句方法及系統(tǒng)與流程

文檔序號(hào):11582652閱讀:367來(lái)源:國(guó)知局
用于圖紙排版的文本斷句方法及系統(tǒng)與流程

本發(fā)明涉及圖紙排版,具體涉及用于圖紙排版的文本斷句方法及系統(tǒng)。



背景技術(shù):

隨著國(guó)際合作日益加強(qiáng),無(wú)論是中國(guó)公司還是外國(guó)公司,在國(guó)際工程與國(guó)際科研的立項(xiàng)及開(kāi)展過(guò)程中,都需要通過(guò)圖紙文件與對(duì)方進(jìn)行交流。圖紙文件中的注釋內(nèi)容、公司信息和標(biāo)注等文本往往需要進(jìn)行非語(yǔ)法的斷句,由于各種語(yǔ)言文化的差異,這些文本斷句往往也存在極大的區(qū)別,增大了文本斷句的難度。

傳統(tǒng)對(duì)圖紙排版中文本的斷句,往往采用人工排版和人工斷句,費(fèi)時(shí)費(fèi)力,成本較高;同時(shí),對(duì)不同語(yǔ)言的圖紙需要不同的工作人員對(duì)其進(jìn)行排版和斷句,極大的降低了圖紙排版效率。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明所要解決的技術(shù)問(wèn)題是在圖紙排版中采用人工斷句時(shí),費(fèi)時(shí)費(fèi)力,成本較高,多語(yǔ)種圖紙文本斷句效率低下,目的在于提供用于圖紙排版的文本斷句方法及系統(tǒng),解決上述問(wèn)題。

本發(fā)明通過(guò)下述技術(shù)方案實(shí)現(xiàn):

用于圖紙排版的文本斷句方法,包括以下步驟:s1:對(duì)完成斷句的句群進(jìn)行svm學(xué)習(xí);s2:利用學(xué)習(xí)后的svm對(duì)需要斷句的句群進(jìn)行分析;s3:根據(jù)分析結(jié)果對(duì)需要斷句的句群進(jìn)行斷句。

現(xiàn)有技術(shù)中,圖紙排版中采用人工斷句時(shí),費(fèi)時(shí)費(fèi)力,成本較高,多語(yǔ)種圖紙文本斷句效率低下。本發(fā)明應(yīng)用時(shí),先對(duì)完成斷句的句群進(jìn)行svm學(xué)習(xí),再利用學(xué)習(xí)后的svm對(duì)需要斷句的句群進(jìn)行分析,然后根據(jù)分析結(jié)果對(duì)需要斷句的句群進(jìn)行斷句,從而實(shí)現(xiàn)對(duì)圖紙排版中的文字進(jìn)行機(jī)器斷句,提高了文本斷句效率,降低了成本。對(duì)斷句的句群進(jìn)行機(jī)器學(xué)習(xí)時(shí),由于句群的特征量龐大,使得學(xué)習(xí)樣本為高維樣本,一般的機(jī)器學(xué)習(xí)方法在這里需要對(duì)學(xué)習(xí)樣本進(jìn)行降維處理,同時(shí),句群的特征量一般為非線性數(shù)據(jù),一般的機(jī)器學(xué)習(xí)方法對(duì)非線性問(wèn)題處理效果不好。針對(duì)以上兩個(gè)特點(diǎn),發(fā)明人通過(guò)大量實(shí)驗(yàn)和創(chuàng)造性勞動(dòng),優(yōu)選出svm作為本發(fā)明的機(jī)器學(xué)習(xí)方法,svm適合解決高維問(wèn)題,而不需要對(duì)學(xué)習(xí)樣本進(jìn)行降維處理,提高了文本斷句效率,同時(shí)svm適合解決非線性問(wèn)題,提高了本發(fā)明的處理效果。svm比起其他機(jī)器學(xué)習(xí)方法,還具有小樣本情況下,機(jī)器學(xué)習(xí)的能力,這就使得進(jìn)行多語(yǔ)種圖紙文本斷句時(shí),只需要增加一個(gè)語(yǔ)種的小樣本進(jìn)行學(xué)習(xí),就可以實(shí)現(xiàn)對(duì)該語(yǔ)種圖紙文本的斷句,提高了多語(yǔ)種圖紙文本斷句的效率。

進(jìn)一步的,步驟s1包括以下子步驟:s11:收集完成斷句的句群;s12:標(biāo)記完成斷句的句群中需要提取特征的地方;s13:對(duì)標(biāo)記后句群的特征進(jìn)行svm學(xué)習(xí)。

本發(fā)明應(yīng)用時(shí),先收集完成斷句的句群,再標(biāo)記完成斷句的句群中需要提取特征的地方,然后對(duì)標(biāo)記后句群的特征進(jìn)行svm學(xué)習(xí)。本發(fā)明通過(guò)對(duì)完成斷句的句群進(jìn)行標(biāo)記,提高了提取特征的準(zhǔn)確性和效率。

再進(jìn)一步的,步驟s13中所述svm學(xué)習(xí)包括利用線性核函數(shù)對(duì)特征進(jìn)行處理。

本發(fā)明應(yīng)用時(shí),所述svm學(xué)習(xí)包括利用線性核函數(shù)對(duì)特征進(jìn)行處理。svm在機(jī)器學(xué)習(xí)的過(guò)程中,需要數(shù)據(jù)是可分的,而句群的特征量在當(dāng)前維度是不可分的,于是需要通過(guò)核函數(shù)對(duì)該句群的特征量進(jìn)行升維使得句群的特征量在更高的維度上可分。發(fā)明人選取了線性核函數(shù)、多項(xiàng)式核函數(shù)、sigmoid核函數(shù)和高斯核函數(shù)等多種核函數(shù)進(jìn)行大量的實(shí)驗(yàn)和創(chuàng)造性勞動(dòng)發(fā)現(xiàn),多項(xiàng)式核函數(shù)、sigmoid核函數(shù)和高斯核函數(shù)在機(jī)器學(xué)習(xí)過(guò)程中,會(huì)使得svm出現(xiàn)過(guò)學(xué)習(xí)現(xiàn)象,從而將線性核函數(shù)優(yōu)選為本發(fā)明所使用的核函數(shù),使得svm學(xué)習(xí)過(guò)程更加穩(wěn)定,對(duì)文本斷句處理更加準(zhǔn)確。

再進(jìn)一步的,所述svm學(xué)習(xí)后形成二元分類(lèi)器。

本發(fā)明應(yīng)用時(shí),svm學(xué)習(xí)后形成二元分類(lèi)器,使得svm在對(duì)需要斷句的句群分析時(shí),只需要通過(guò)二元分類(lèi)器將該句群的特征值與學(xué)習(xí)的特征值進(jìn)行“是”與“否”的判斷,就可以得出需要斷句的位置,提高了文本斷句效率。

進(jìn)一步的,步驟s2包括以下子步驟:s21:輸入需要斷句的句群;s22:標(biāo)記需要斷句的句群中需要提取特征的地方;s23:對(duì)標(biāo)記后句群的特征通過(guò)svm進(jìn)行分析。

本發(fā)明應(yīng)用時(shí),先輸入需要斷句的句群,再標(biāo)記需要斷句的句群中需要提取特征的地方,然后對(duì)標(biāo)記后句群的特征通過(guò)svm進(jìn)行分析。本發(fā)明通過(guò)對(duì)需要斷句的句群進(jìn)行標(biāo)記,提高了提取特征的準(zhǔn)確性和效率。

用于圖紙排版的文本斷句系統(tǒng),包括:對(duì)完成斷句的句群進(jìn)行svm學(xué)習(xí)的學(xué)習(xí)單元;利用學(xué)習(xí)后的svm對(duì)需要斷句的句群進(jìn)行分析的分析單元;根據(jù)分析結(jié)果對(duì)需要斷句的句群進(jìn)行斷句的斷句單元。

現(xiàn)有技術(shù)中,圖紙排版中采用人工斷句時(shí),費(fèi)時(shí)費(fèi)力,成本較高,多語(yǔ)種圖紙文本斷句效率低下。本發(fā)明應(yīng)用時(shí),學(xué)習(xí)單元對(duì)完成斷句的句群進(jìn)行svm學(xué)習(xí),分析單元利用學(xué)習(xí)后的svm對(duì)需要斷句的句群進(jìn)行分析,斷句單元根據(jù)分析結(jié)果對(duì)需要斷句的句群進(jìn)行斷句,從而實(shí)現(xiàn)對(duì)圖紙排版中的文字進(jìn)行機(jī)器斷句,提高了文本斷句效率,降低了成本。對(duì)斷句的句群進(jìn)行機(jī)器學(xué)習(xí)時(shí),由于句群的特征量龐大,使得學(xué)習(xí)樣本為高維樣本,一般的機(jī)器學(xué)習(xí)方法在這里需要對(duì)學(xué)習(xí)樣本進(jìn)行降維處理,同時(shí),句群的特征量一般為非線性數(shù)據(jù),一般的機(jī)器學(xué)習(xí)方法對(duì)非線性問(wèn)題處理效果不好。針對(duì)以上兩個(gè)特點(diǎn),發(fā)明人通過(guò)大量實(shí)驗(yàn)和創(chuàng)造性勞動(dòng),優(yōu)選出svm作為本發(fā)明的機(jī)器學(xué)習(xí)方法,svm適合解決高維問(wèn)題,而不需要對(duì)學(xué)習(xí)樣本進(jìn)行降維處理,提高了文本斷句效率,同時(shí)svm適合解決非線性問(wèn)題,提高了本發(fā)明的處理效果。svm比起其他機(jī)器學(xué)習(xí)方法,還具有小樣本情況下,機(jī)器學(xué)習(xí)的能力,這就使得進(jìn)行多語(yǔ)種圖紙文本斷句時(shí),只需要增加一個(gè)語(yǔ)種的小樣本進(jìn)行學(xué)習(xí),就可以實(shí)現(xiàn)對(duì)該語(yǔ)種圖紙文本的斷句,提高了多語(yǔ)種圖紙文本斷句的效率。

進(jìn)一步的,所述分析單元包括:用于輸入需要斷句的句群的輸入模塊;用于標(biāo)記需要斷句的句群中需要提取特征的地方的標(biāo)記模塊;用于對(duì)標(biāo)記后句群的特征通過(guò)svm進(jìn)行分析的分析模塊。

本發(fā)明應(yīng)用時(shí),輸入模塊輸入需要斷句的句群,標(biāo)記模塊標(biāo)記需要斷句的句群中需要提取特征的地方,分析模塊對(duì)標(biāo)記后句群的特征通過(guò)svm進(jìn)行分析。本發(fā)明通過(guò)對(duì)需要斷句的句群進(jìn)行標(biāo)記,提高了提取特征的準(zhǔn)確性和效率。

本發(fā)明與現(xiàn)有技術(shù)相比,具有如下的優(yōu)點(diǎn)和有益效果:

1、本發(fā)明用于圖紙排版的文本斷句方法,通過(guò)svm學(xué)習(xí),提高了文本斷句效率,降低了成本,提高了多語(yǔ)種圖紙文本斷句的效率;

2、本發(fā)明用于圖紙排版的文本斷句方法,通過(guò)將線性核函數(shù)優(yōu)選為本發(fā)明所使用的核函數(shù),使得svm學(xué)習(xí)過(guò)程更加穩(wěn)定,對(duì)文本斷句處理更加準(zhǔn)確;

3、本發(fā)明用于圖紙排版的文本斷句方法,svm學(xué)習(xí)后形成二元分類(lèi)器,提高了文本斷句效率;

4、本發(fā)明用于圖紙排版的文本斷句方法,通過(guò)對(duì)需要斷句的句群進(jìn)行標(biāo)記,提高了提取特征的準(zhǔn)確性和效率;

5、本發(fā)明用于圖紙排版的文本斷句方法,通過(guò)對(duì)需要斷句的句群進(jìn)行標(biāo)記,提高了提取特征的準(zhǔn)確性和效率;

6、本發(fā)明用于圖紙排版的文本斷句系統(tǒng),通過(guò)svm學(xué)習(xí),提高了文本斷句效率,降低了成本,提高了多語(yǔ)種圖紙文本斷句的效率;

7、本發(fā)明用于圖紙排版的文本斷句系統(tǒng),通過(guò)對(duì)需要斷句的句群進(jìn)行標(biāo)記,提高了提取特征的準(zhǔn)確性和效率。

附圖說(shuō)明

此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明實(shí)施例的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,并不構(gòu)成對(duì)本發(fā)明實(shí)施例的限定。在附圖中:

圖1為本發(fā)明方法步驟示意圖;

圖2為本發(fā)明s1子步驟示意圖;

圖3為本發(fā)明s2子步驟示意圖;

圖4為本發(fā)明系統(tǒng)結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面結(jié)合實(shí)施例和附圖,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明,本發(fā)明的示意性實(shí)施方式及其說(shuō)明僅用于解釋本發(fā)明,并不作為對(duì)本發(fā)明的限定。

實(shí)施例1

如圖1所示,用于圖紙排版的文本斷句方法,包括以下步驟:s1:對(duì)完成斷句的句群進(jìn)行svm學(xué)習(xí);s2:利用學(xué)習(xí)后的svm對(duì)需要斷句的句群進(jìn)行分析;s3:根據(jù)分析結(jié)果對(duì)需要斷句的句群進(jìn)行斷句。

本實(shí)施例實(shí)施時(shí),先對(duì)完成斷句的句群進(jìn)行svm學(xué)習(xí),再利用學(xué)習(xí)后的svm對(duì)需要斷句的句群進(jìn)行分析,然后根據(jù)分析結(jié)果對(duì)需要斷句的句群進(jìn)行斷句,從而實(shí)現(xiàn)對(duì)圖紙排版中的文字進(jìn)行機(jī)器斷句,提高了文本斷句效率,降低了成本。對(duì)斷句的句群進(jìn)行機(jī)器學(xué)習(xí)時(shí),由于句群的特征量龐大,使得學(xué)習(xí)樣本為高維樣本,一般的機(jī)器學(xué)習(xí)方法在這里需要對(duì)學(xué)習(xí)樣本進(jìn)行降維處理,同時(shí),句群的特征量一般為非線性數(shù)據(jù),一般的機(jī)器學(xué)習(xí)方法對(duì)非線性問(wèn)題處理效果不好。針對(duì)以上兩個(gè)特點(diǎn),發(fā)明人通過(guò)大量實(shí)驗(yàn)和創(chuàng)造性勞動(dòng),優(yōu)選出svm作為本發(fā)明的機(jī)器學(xué)習(xí)方法,svm適合解決高維問(wèn)題,而不需要對(duì)學(xué)習(xí)樣本進(jìn)行降維處理,提高了文本斷句效率,同時(shí)svm適合解決非線性問(wèn)題,提高了本發(fā)明的處理效果。svm比起其他機(jī)器學(xué)習(xí)方法,還具有小樣本情況下,機(jī)器學(xué)習(xí)的能力,這就使得進(jìn)行多語(yǔ)種圖紙文本斷句時(shí),只需要增加一個(gè)語(yǔ)種的小樣本進(jìn)行學(xué)習(xí),就可以實(shí)現(xiàn)對(duì)該語(yǔ)種圖紙文本的斷句,提高了多語(yǔ)種圖紙文本斷句的效率。

實(shí)施例2

如圖2所示,本實(shí)施例在實(shí)施例1的基礎(chǔ)上,步驟s1包括以下子步驟:s11:收集完成斷句的句群;s12:標(biāo)記完成斷句的句群中需要提取特征的地方;s13:對(duì)標(biāo)記后句群的特征進(jìn)行svm學(xué)習(xí)。

本實(shí)施例實(shí)施時(shí),先收集完成斷句的句群,再標(biāo)記完成斷句的句群中需要提取特征的地方,然后對(duì)標(biāo)記后句群的特征進(jìn)行svm學(xué)習(xí)。本發(fā)明通過(guò)對(duì)完成斷句的句群進(jìn)行標(biāo)記,提高了提取特征的準(zhǔn)確性和效率。

實(shí)施例3

本實(shí)施例在實(shí)施例2的基礎(chǔ)上,步驟s13中所述svm學(xué)習(xí)包括利用線性核函數(shù)對(duì)特征進(jìn)行處理。

本實(shí)施例實(shí)施時(shí),所述svm學(xué)習(xí)包括利用線性核函數(shù)對(duì)特征進(jìn)行處理。svm在機(jī)器學(xué)習(xí)的過(guò)程中,需要數(shù)據(jù)是可分的,而句群的特征量在當(dāng)前維度是不可分的,于是需要通過(guò)核函數(shù)對(duì)該句群的特征量進(jìn)行升維使得句群的特征量在更高的維度上可分。發(fā)明人選取了線性核函數(shù)、多項(xiàng)式核函數(shù)、sigmoid核函數(shù)和高斯核函數(shù)等多種核函數(shù)進(jìn)行大量的實(shí)驗(yàn)和創(chuàng)造性勞動(dòng)發(fā)現(xiàn),多項(xiàng)式核函數(shù)、sigmoid核函數(shù)和高斯核函數(shù)在機(jī)器學(xué)習(xí)過(guò)程中,會(huì)使得svm出現(xiàn)過(guò)學(xué)習(xí)現(xiàn)象,從而將線性核函數(shù)優(yōu)選為本發(fā)明所使用的核函數(shù),使得svm學(xué)習(xí)過(guò)程更加穩(wěn)定,對(duì)文本斷句處理更加準(zhǔn)確。

實(shí)施例4

本實(shí)施例在實(shí)施例3的基礎(chǔ)上,所述svm學(xué)習(xí)后形成二元分類(lèi)器。

本實(shí)施例實(shí)施時(shí),svm學(xué)習(xí)后形成二元分類(lèi)器,使得svm在對(duì)需要斷句的句群分析時(shí),只需要通過(guò)二元分類(lèi)器將該句群的特征值與學(xué)習(xí)的特征值進(jìn)行“是”與“否”的判斷,就可以得出需要斷句的位置,提高了文本斷句效率。

實(shí)施例5

如圖3所示,本實(shí)施例在實(shí)施例1的基礎(chǔ)上,步驟s2包括以下子步驟:s21:輸入需要斷句的句群;s22:標(biāo)記需要斷句的句群中需要提取特征的地方;s23:對(duì)標(biāo)記后句群的特征通過(guò)svm進(jìn)行分析。

本實(shí)施例實(shí)施時(shí),先輸入需要斷句的句群,再標(biāo)記需要斷句的句群中需要提取特征的地方,然后對(duì)標(biāo)記后句群的特征通過(guò)svm進(jìn)行分析。本發(fā)明通過(guò)對(duì)需要斷句的句群進(jìn)行標(biāo)記,提高了提取特征的準(zhǔn)確性和效率。

實(shí)施例6

本實(shí)施例在實(shí)施例1~5的基礎(chǔ)上,需要分句的句群為:

圖3臨潼強(qiáng)震臺(tái)強(qiáng)震動(dòng)記錄xi'ancateringco.,ltd.

本實(shí)施例實(shí)施時(shí),對(duì)該句群進(jìn)行標(biāo)記,標(biāo)記后為

圖3臨潼強(qiáng)震臺(tái)強(qiáng)震動(dòng)記錄xi'ancateringco.,ltd.

然后提取特征,對(duì)臨潼這個(gè)詞提取特征如下:

a)這個(gè)詞本身是什么——臨潼

b)前一個(gè)詞是數(shù)字嗎——是

c)前兩個(gè)詞是什么——圖

d)前一個(gè)詞是什么——3

e)后一個(gè)詞——強(qiáng)

f)當(dāng)前詞詞性——名詞

g)前一個(gè)詞詞性——數(shù)詞

h)后一個(gè)詞詞性——名詞

對(duì)記錄這個(gè)詞提取特征如下:

a)這個(gè)詞本身是什么——記錄

b)前一個(gè)詞是數(shù)字嗎——否

c)前兩個(gè)詞是什么——強(qiáng)

d)前一個(gè)詞是什么——震動(dòng)

e)后一個(gè)詞——xi'an

f)當(dāng)前詞詞性——名詞

g)前一個(gè)詞詞性——名詞

h)后一個(gè)詞詞性——名詞

svm學(xué)習(xí)時(shí),提取的斷句特征為后一個(gè)詞為拉丁字母構(gòu)成的文字,二元分類(lèi)器對(duì)臨潼和記錄這兩個(gè)詞分類(lèi),結(jié)果為臨潼為否,記錄為是,則在記錄后面進(jìn)行斷句,斷句后的結(jié)果為:

圖3臨潼強(qiáng)震臺(tái)強(qiáng)震動(dòng)記錄

xi'ancateringco.,ltd.

實(shí)施例7

本實(shí)施例在實(shí)施例6的基礎(chǔ)上,需要分句的句群為:

綜合資質(zhì)甲級(jí)a141001996號(hào)comprehensivegradeaqualificationno.a141001996

本實(shí)施例實(shí)施時(shí),對(duì)該句群進(jìn)行標(biāo)記,標(biāo)記后為

綜合資質(zhì)甲級(jí)a141001996號(hào)comprehensivegradeaqualificationno.a141001996

然后提取特征,對(duì)甲級(jí)這個(gè)詞提取特征如下:

a)這個(gè)詞本身是什么——甲級(jí)

b)前一個(gè)詞是數(shù)字嗎——否

c)前兩個(gè)詞是什么——綜合

d)前一個(gè)詞是什么——資質(zhì)

e)后一個(gè)詞——a

f)后兩個(gè)詞是什么——141001996

g)當(dāng)前詞詞性——形容詞

h)前一個(gè)詞詞性——名詞

i)后一個(gè)詞詞性——字母

對(duì)號(hào)這個(gè)詞提取特征如下:

a)這個(gè)詞本身是什么——號(hào)

b)前一個(gè)詞是數(shù)字嗎——是

c)前兩個(gè)詞是什么——a

d)前一個(gè)詞是什么——141001996

e)后一個(gè)詞——comprehensive

f)后兩個(gè)詞是什么——grade

g)當(dāng)前詞詞性——名詞

h)前一個(gè)詞詞性——數(shù)詞

i)后一個(gè)詞詞性——形容詞

svm學(xué)習(xí)時(shí),提取的斷句特征為后一個(gè)詞為拉丁字母構(gòu)成的文字且后兩個(gè)詞也為拉丁字母構(gòu)成的文字,二元分類(lèi)器對(duì)甲級(jí)和號(hào)這兩個(gè)詞分類(lèi),結(jié)果為甲級(jí)為否,號(hào)為是,則在號(hào)后面進(jìn)行斷句,斷句后的結(jié)果為:

綜合資質(zhì)甲級(jí)a141001996號(hào)

comprehensivegradeaqualificationno.a141001996

實(shí)施例8

本實(shí)施例在實(shí)施例6的基礎(chǔ)上,需要分句的句群為:

5)anchorpanelstobeinstalledandboltedtothestonewallatallhorizontaljoints.6)listelanclestobeextended6'beyondthewindowopeningateachends.

本實(shí)施例實(shí)施時(shí),對(duì)該句群進(jìn)行標(biāo)記,標(biāo)記后為:

5)anchorpanelstobeinstalledandboltedtothestonewallatallhorizontaljoints.6)listelanclestobeextended6'beyondthewindowopeningateachends.

然后提取特征,對(duì)installed這個(gè)詞提取特征如下:

a)這個(gè)詞本身是什么——installed

b)前一個(gè)詞是數(shù)字嗎——否

c)前兩個(gè)詞是什么——to

d)前一個(gè)詞是什么——be

e)后一個(gè)詞——and

f)后兩個(gè)詞是什么——bolted

g)當(dāng)前詞詞性——形容詞

h)前一個(gè)詞詞性——?jiǎng)釉~

i)后一個(gè)詞詞性——介詞

對(duì)第一個(gè).提取特征如下:

a)這個(gè)詞本身是什么——.

b)前一個(gè)詞是數(shù)字嗎——否

c)前兩個(gè)詞是什么——horizontal

d)前一個(gè)詞是什么——joints

e)后一個(gè)詞——6

f)后兩個(gè)詞是什么——)

g)當(dāng)前詞詞性——標(biāo)點(diǎn)

h)前一個(gè)詞詞性——?jiǎng)釉~

i)后一個(gè)詞詞性——數(shù)詞

svm學(xué)習(xí)時(shí),提取的斷句特征為后一個(gè)詞為數(shù)詞且后兩個(gè)詞為反括號(hào),二元分類(lèi)器對(duì)installed和.這兩個(gè)詞分類(lèi),結(jié)果為installed為否,.為是,則在.后面進(jìn)行斷句,斷句后的結(jié)果為:

5)anchorpanelstobeinstalledandboltedtothestonewallatallhorizontaljoints.

6)listelanclestobeextended6'beyondthewindowopeningateachends.

實(shí)施例9

本發(fā)明用于圖紙排版的文本斷句系統(tǒng),包括:對(duì)完成斷句的句群進(jìn)行svm學(xué)習(xí)的學(xué)習(xí)單元;利用學(xué)習(xí)后的svm對(duì)需要斷句的句群進(jìn)行分析的分析單元;根據(jù)分析結(jié)果對(duì)需要斷句的句群進(jìn)行斷句的斷句單元。

本實(shí)施例實(shí)施時(shí),學(xué)習(xí)單元優(yōu)選為ibm公司的asic芯片,斷句單元優(yōu)選為ad8130arm,學(xué)習(xí)單元對(duì)完成斷句的句群進(jìn)行svm學(xué)習(xí),分析單元利用學(xué)習(xí)后的svm對(duì)需要斷句的句群進(jìn)行分析,斷句單元根據(jù)分析結(jié)果對(duì)需要斷句的句群進(jìn)行斷句,從而實(shí)現(xiàn)對(duì)圖紙排版中的文字進(jìn)行機(jī)器斷句,提高了文本斷句效率,降低了成本。對(duì)斷句的句群進(jìn)行機(jī)器學(xué)習(xí)時(shí),由于句群的特征量龐大,使得學(xué)習(xí)樣本為高維樣本,一般的機(jī)器學(xué)習(xí)方法在這里需要對(duì)學(xué)習(xí)樣本進(jìn)行降維處理,同時(shí),句群的特征量一般為非線性數(shù)據(jù),一般的機(jī)器學(xué)習(xí)方法對(duì)非線性問(wèn)題處理效果不好。針對(duì)以上兩個(gè)特點(diǎn),發(fā)明人通過(guò)大量實(shí)驗(yàn)和創(chuàng)造性勞動(dòng),優(yōu)選出svm作為本發(fā)明的機(jī)器學(xué)習(xí)方法,svm適合解決高維問(wèn)題,而不需要對(duì)學(xué)習(xí)樣本進(jìn)行降維處理,提高了文本斷句效率,同時(shí)svm適合解決非線性問(wèn)題,提高了本發(fā)明的處理效果。svm比起其他機(jī)器學(xué)習(xí)方法,還具有小樣本情況下,機(jī)器學(xué)習(xí)的能力,這就使得進(jìn)行多語(yǔ)種圖紙文本斷句時(shí),只需要增加一個(gè)語(yǔ)種的小樣本進(jìn)行學(xué)習(xí),就可以實(shí)現(xiàn)對(duì)該語(yǔ)種圖紙文本的斷句,提高了多語(yǔ)種圖紙文本斷句的效率。

實(shí)施例10

本實(shí)施例在實(shí)施例9的基礎(chǔ)上,所述分析單元包括:用于輸入需要斷句的句群的輸入模塊;用于標(biāo)記需要斷句的句群中需要提取特征的地方的標(biāo)記模塊;用于對(duì)標(biāo)記后句群的特征通過(guò)svm進(jìn)行分析的分析模塊。

本實(shí)施例實(shí)施時(shí),輸入模塊優(yōu)選為usb2.0,標(biāo)記模塊優(yōu)選為ad5339arm,分析模塊優(yōu)選為scx-asic,輸入模塊輸入需要斷句的句群,標(biāo)記模塊標(biāo)記需要斷句的句群中需要提取特征的地方,分析模塊對(duì)標(biāo)記后句群的特征通過(guò)svm進(jìn)行分析。本發(fā)明通過(guò)對(duì)需要斷句的句群進(jìn)行標(biāo)記,提高了提取特征的準(zhǔn)確性和效率。

以上所述的具體實(shí)施方式,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施方式而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1