本發(fā)明涉及通信領(lǐng)域,具體而言,涉及一種文本識別模型建立方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展和移動設(shè)備的普及,產(chǎn)生了大量含有復(fù)雜噪音或者各種變形的網(wǎng)絡(luò)合成的文本圖片,為了從大量公開的多媒體數(shù)據(jù)中挖掘出有價值的信息,識別這些復(fù)雜的網(wǎng)絡(luò)合成的文本圖片的意義十分重大。
然而,識別復(fù)雜網(wǎng)絡(luò)合成文本圖片具有相當(dāng)大的挑戰(zhàn)性:一方面,復(fù)雜的網(wǎng)絡(luò)合成的文本圖片具有多樣性,它們可能具有不同的字體、顏色、大小、方向和排列方式;另一方面,復(fù)雜的網(wǎng)絡(luò)合成的文本圖片中存在噪聲、模糊、光照和遮擋等問題,這給文字的檢測和識別帶來巨大的困難。
若使用傳統(tǒng)的光學(xué)字符識別(opticalcharacterrecognition,簡稱為ocr)方法識別這些網(wǎng)絡(luò)合成的文本圖片,則在識別速率和準(zhǔn)確性方面將難以達(dá)到預(yù)定要求。隨著機(jī)器學(xué)習(xí)方法的出現(xiàn),使得復(fù)雜背景文本圖片的ocr得到了突破性的進(jìn)展,但是使用機(jī)器學(xué)習(xí)來進(jìn)行文字識別之前,需要大量的文本文件作為訓(xùn)練樣本來建立文本識別模型。然而,目前在現(xiàn)有的文本識別模型建立過程中,往往會重復(fù)獲取到相同的文本文件,這樣采用相同的文本文件所建立的文本識別模型將無法覆蓋所有文本內(nèi)容,從而使得采用該文本識別模型無法進(jìn)行準(zhǔn)確地文本識別。
針對相關(guān)技術(shù)中使用重復(fù)獲取到的相同的文本文件所建立的文本識別模型的準(zhǔn)確性較低的問題,目前尚未提出有效的解決方案。
技術(shù)實現(xiàn)要素:
本發(fā)明提供了一種文本識別模型建立方法和裝置,以至少解決相關(guān)技術(shù)中使用重復(fù)獲取到的相同的文本文件所建立的文本識別模型的準(zhǔn)確性較低的問題。
根據(jù)本發(fā)明的一個方面,提供了一種文本識別模型建立方法,包括:獲取文本文件集合;從所述文本文件集合中選擇互不相同的文本文件作為特征文本文件;使用所述特征文本文件建立文本識別模型,其中,所述文本識別模型用于識別待識別的文本文件中的文本信息。
可選地,從所述文本文件集合中選擇所述互不相同的文本文件作為所述特征文本文件包括:根據(jù)所述文本文件集合中文本文件的文件標(biāo)識和/或所述文本文件集合中文本文件的存儲位置標(biāo)識,從所述文本文件集合中選擇所述互不相同的文本文件作為所述特征文本文件。
可選地,根據(jù)所述文本文件集合中文本文件的所述文件標(biāo)識和/或所述文本文件集合中文本文件的所述存儲位置標(biāo)識從所述文本文件集合中選擇所述互不相同的文本文件作為所述特征文本文件包括:根據(jù)預(yù)設(shè)算法獲取第一預(yù)設(shè)數(shù)量的所述文本文件集合中的所述文件標(biāo)識,得到文件標(biāo)識集合,其中,所述文件標(biāo)識集合中相同的文本文件標(biāo)識所對應(yīng)的文本文件的存儲位置標(biāo)識相同;獲取所述文件標(biāo)識集合中的所述文件標(biāo)識對應(yīng)的互不相同的存儲位置標(biāo)識;根據(jù)所述互不相同的存儲位置標(biāo)識從所述文件標(biāo)識集合中篩選出第二預(yù)設(shè)數(shù)量的互不相同的文件標(biāo)識;從所述文本文件集合中提取所述互不相同的文件標(biāo)識對應(yīng)的文本文件作為所述特征文本文件。
可選地,所述獲取文本文件集合包括:獲取文本信息;批量復(fù)制所述文本信息,得到多個所述文本信息;分別為多個所述文本信息設(shè)置文本參數(shù),得到互不相同的文本文件,其中,所述文本文件集合包括所述互不相同的文本文件。
可選地,所述獲取文本信息包括:接收輸入的第一文本字符串作為所述文本信息;或者讀取系統(tǒng)中存儲的第二文本字符串;根據(jù)預(yù)設(shè)策略分割所述第二文本字符串,得到文本字符串集合;提取所述文本字符串集合中的一個第三文本字符串作為所述文本信息。
可選地,所述文本參數(shù)包括以下至少之一:所述文本信息中文字的字體格式參數(shù)、所述文本信息中文字的字體顯示大小參數(shù)、所述文本信息中空白字符大小比例參數(shù)、所述文本信息中文字的間隔大小比例參數(shù)、所述文本信息中文字的旋轉(zhuǎn)角度參數(shù)、所述文本信息中文字的字體顏色參數(shù)、所述文本信息中文字的透明度參數(shù)、所述文本信息中文字的加粗程度參數(shù)、所述文本信息中文字的傾斜程度參數(shù)、所述文本信息中文字的下劃線繪制參數(shù)、背景圖片、所述文本信息在所述背景圖片中的顯示位置參數(shù)。
根據(jù)本發(fā)明的另一個方面,還提供了一種文本識別模型建立裝置,包括:獲取模塊,用于獲取文本文件集合;選擇模塊,用于從所述文本文件集合中選擇互不相同的文本文件作為特征文本文件;建立模塊,用于使用所述特征文本文件建立文本識別模型,其中,所述文本識別模型用于識別待識別的文本文件中的文本信息。
可選地,所述選擇模塊用于:根據(jù)所述文本文件集合中文本文件的文件標(biāo)識和/或所述文本文件集合中文本文件的存儲位置標(biāo)識從所述文本文件集合中選擇所述互不相同的文本文件作為所述特征文本文件。
可選地,所述選擇模塊包括:第一獲取單元,用于根據(jù)預(yù)設(shè)算法獲取第一預(yù)設(shè)數(shù)量的所述文本文件集合中的所述文件標(biāo)識,得到文件標(biāo)識集合,其中,所述文件標(biāo)識集合中相同的文本文件標(biāo)識所對應(yīng)的文本文件的存儲位置標(biāo)識相同;第二獲取單元,用于獲取所述文件標(biāo)識集合中的所述文件標(biāo)識對應(yīng)的互不相同的存儲位置標(biāo)識;選擇單元,用于根據(jù)所述互不相同的存儲位置標(biāo)識從所述文件標(biāo)識集合中選擇第二預(yù)設(shè)數(shù)量的互不相同的文件標(biāo)識;提取單元,用于從所述文本文件集合中提取所述互不相同的文件標(biāo)識對應(yīng)的文本文件作為所述特征文本文件。
可選地,所述獲取模塊包括:第三獲取單元,用于獲取文本信息;復(fù)制單元,用于批量 復(fù)制所述文本信息,得到多個所述文本信息;設(shè)置單元,用于分別為多個所述文本信息設(shè)置文本參數(shù),得到互不相同的文本文件,其中,所述文本文件集合包括所述互不相同的文本文件。
可選地,所述第三獲取單元用于:接收輸入的第一文本字符串作為所述文本信息;或者讀取系統(tǒng)中存儲的第二文本字符串;根據(jù)預(yù)設(shè)策略分割所述第二文本字符串,得到文本字符串集合;提取所述文本字符串集合中的一個第三文本字符串作為所述文本信息。
通過本發(fā)明,在獲取文本文件集合后;通過從文本文件集合中選擇互不相同的文本文件作為特征文本文件;以實現(xiàn)使用上述特征文本文件建立文本識別模型,其中,文本識別模型用于識別待識別的文本文件中的文本信息。也就是說,通過從文本文件集合中自動選取互不相同的文本文件作為特征文本文件,來建立用于識別文本文件中文本信息的文本識別模型,從而使所建立的文本識別模型可以覆蓋不同的文本文件,以保證所建立的文本識別模型的準(zhǔn)確性,并克服現(xiàn)有技術(shù)中使用重復(fù)獲取到的相同的文本文件所建立的文本識別模型的準(zhǔn)確性較低的問題。進(jìn)而保證采用本實施例中提供的文本識別模型建立方法所建立的文本識別模型可以準(zhǔn)確識別出文本圖片中的文本信息。
此外,通過從文本文件集合中自動選取互不相同的文本文件來建立文本識別模型的方式,還可以減少作為訓(xùn)練樣本,用于建立文本識別模型的文本文件的數(shù)量,即減少重復(fù)獲取到的文本文件的數(shù)量,從而實現(xiàn)提高建立文本識別模型的效率,進(jìn)而避免所獲取的文本文件數(shù)量過多所導(dǎo)致的建立文本識別模型的效率較低問題。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
圖1是根據(jù)本發(fā)明實施例的一種可選的文本識別模型建立方法的流程圖;
圖2是根據(jù)本發(fā)明可選實施例的文本識別模型建立方法的流程圖;
圖3是根據(jù)本發(fā)明可選實施例的新型的改進(jìn)型線性同余隨機(jī)數(shù)發(fā)生器的流程圖;
圖4是根據(jù)本發(fā)明實施例的一種可選的文本識別模型建立裝置的結(jié)構(gòu)框圖;
圖5是根據(jù)本發(fā)明實施例的另一種可選的文本識別模型建立裝置的結(jié)構(gòu)框圖;
圖6是根據(jù)本發(fā)明實施例的另一種可選的文本識別模型建立裝置的結(jié)構(gòu)框圖。
具體實施方式
下文中將參考附圖并結(jié)合實施例來詳細(xì)說明本發(fā)明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。
需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。
實施例一
在本實施例中提供了一種文本識別模型建立方法,圖1是根據(jù)本發(fā)明實施例的一種可選的文本識別模型建立方法的流程圖,如圖1所示,該流程包括如下步驟:
步驟s102,獲取文本文件集合;
步驟s104,從文本文件集合中選擇互不相同的文本文件作為特征文本文件;
步驟s106,使用特征文本文件建立文本識別模型,其中,文本識別模型用于識別待識別的文本文件中的文本信息。
可選地,本實施例可以但不限于應(yīng)用于建立文本識別模型的場景中。特別是在光學(xué)字符識別(opticalcharacterrecognition,簡稱為ocr)場景下建立用于機(jī)器學(xué)習(xí)的文本識別模型。例如,可以但不限于應(yīng)用于文本定位、文本檢測或文本識別的過程中。上述場景僅是一種示例,本實施例中對此不做任何限定。
通過上述步驟,通過從文本文件集合中自動選取互不相同的文本文件作為特征文本文件,來建立用于識別文本文件中文本信息的文本識別模型,從而使所建立的文本識別模型可以覆蓋不同的文本文件,以保證所建立的文本識別模型的準(zhǔn)確性,并克服現(xiàn)有技術(shù)中使用重復(fù)獲取到的相同的文本文件所建立的文本識別模型的準(zhǔn)確性較低的問題。進(jìn)而保證采用本實施例中提供的文本識別模型建立方法所建立的文本識別模型可以準(zhǔn)確識別出文本圖片中的文本信息。
此外,通過從文本文件集合中自動選取互不相同的文本文件來建立文本識別模型的方式,還可以減少作為訓(xùn)練樣本,用于建立文本識別模型的文本文件的數(shù)量,即減少重復(fù)獲取到的文本文件的數(shù)量,從而實現(xiàn)提高建立文本識別模型的效率,進(jìn)而避免所獲取的文本文件數(shù)量過多所導(dǎo)致的建立文本識別模型的效率較低問題。
在本實施例中,文本識別模型可以用于ocr文本識別模型的訓(xùn)練,ocr可以理解為讓計算機(jī)將圖片中的文字識別出來,例如,圖片在計算機(jī)中,計算機(jī)并不能自動認(rèn)識圖片里的文字,在ocr技術(shù)中,就是先把圖片中的文字識別出來,轉(zhuǎn)化成文本格式,令計算機(jī)能夠?qū)⑵鋬?nèi)容讀出來。要實現(xiàn)上述功能,需要建立一個ocr模型,這個模型是通過訓(xùn)練得到的。在進(jìn)行訓(xùn)練前,需要獲取用于訓(xùn)練的ocr文本文件,組成文本識別模型,相關(guān)技術(shù)中的辦法是搜集有文字的圖片,搜集到海量的文字圖片,并逐一標(biāo)注文字圖片里的內(nèi)容(即:使計算機(jī)可讀取該內(nèi)容)。讓計算機(jī)的模型去學(xué)習(xí)這些標(biāo)注好的文本文件。使用海量的文本文件去訓(xùn)練ocr模型,ocr模型遇到新的有文字的圖片,就能識別圖片上的文字,并輸出計算機(jī)可讀的文字格式。
但是,在ocr模型訓(xùn)練中,樣本必須是非常海量的,保證足夠訓(xùn)練出一個可用的ocr模型。海量有兩個缺點:1、這么多樣本,搜集起來加以標(biāo)注,必須是人看到圖片,知道了圖中文字內(nèi)容,然后標(biāo)注這個內(nèi)容為文本格式(即:使計算機(jī)可讀),每一個圖片都要這樣操作。人工消耗非常大,而且不能保證人工不出錯。2、樣本必須有非常好的多樣性。比如“好”這個字,有各種不同的顏色,字體,背景,甚至陰影,傾斜,粗細(xì),不同角度光照等等變化。需要盡可能讓這些各種表現(xiàn)形式的“好”字作為樣本給ocr模型學(xué)習(xí)訓(xùn)練,ocr模型才會在今后使用時,正確地識別出新遇到的“好”字。但是收集豐富表現(xiàn)形式的樣本,人工尋找篩選,工程量非常大。
在本實施例中,首先,由于文本識別模型是由計算機(jī)可讀的文本文件生成的,因此文本圖片人工標(biāo)注的問題就不存在了。其次,用于生成文本識別模型的文本文件中的同一文本信息有各種各樣不同的表現(xiàn)形式。此外,生成文本文件后,加入隨機(jī)算法,二次隨機(jī)選取文本文件,作為訓(xùn)練使用。如果不加入隨機(jī)算法,例如“好”字,生成1000種表現(xiàn)形式的“好”字的圖片,“壞”字也生成1000種,每次程序輸入內(nèi)容,輸出的表現(xiàn)形式都是1000種,這樣反而會降低計算機(jī)識別的準(zhǔn)確率。在本實施例中,生成1000種“好”字,隨機(jī)選取500種,生成1000種“壞”字,隨機(jī)選取500種。這樣能夠保證樣本的豐富和隨機(jī)。
在本實施例中,可以但不限于根據(jù)文本文件集合中文本文件的文件標(biāo)識和/或文本文件集合中文本文件的存儲位置標(biāo)識,從文本文件集合中選擇互不相同的文本文件作為特征文本文件。
下面通過三個示例說明從所述文本文件集合中選擇互不相同的文本文件作為特征文本文件的過程。
示例一是根據(jù)文本文件集合中文本文件的文件標(biāo)識,從文本文件集合中選擇互不相同的文本文件作為特征文本文件的過程。
在示例一中,由于在文本文件集合中不同的文本文件攜帶有不同的文件標(biāo)識,因此可以通過預(yù)設(shè)算法批量選擇文件標(biāo)識,再刪除其中相同的文件標(biāo)識,保留互不相同的文件標(biāo)識。然后,根據(jù)篩選出的互不相同的文件標(biāo)識從文本文件集合中提取對應(yīng)的文本文件作為特征文本文件建立文本識別模型。通過上述步驟,根據(jù)不同文本文件攜帶不同文本標(biāo)識的特點獲取特征文本文件,使所建立的文本識別模型可以覆蓋不同的文本文件,以保證所建立的文本識別模型的準(zhǔn)確性,并克服現(xiàn)有技術(shù)中使用重復(fù)獲取到的相同的文本文件所建立的文本識別模型的準(zhǔn)確性較低的問題。進(jìn)而保證采用本實施例中提供的文本識別模型建立方法所建立的文本識別模型可以準(zhǔn)確識別出文本圖片中的文本信息。
示例二是根據(jù)文本文件集合中文本文件的存儲位置標(biāo)識,從文本文件集合中選擇互不相同的文本文件作為特征文本文件的過程。
在示例二中,由于在文本文件集合中不同的文本文件存儲位置不同,因此攜帶有不同的存儲位置標(biāo)識,可以通過預(yù)設(shè)算法批量選擇存儲位置標(biāo)識,再刪除其中相同的存儲位置標(biāo)識,保留互不相同的存儲位置標(biāo)識。然后,根據(jù)篩選出的互不相同的存儲位置標(biāo)識從文本文件集 合中提取對應(yīng)的文本文件作為特征文本文件建立文本識別模型。通過上述步驟,根據(jù)不同文本文件存儲位置不同導(dǎo)致攜帶不同存儲位置標(biāo)識的特點獲取特征文本文件,使所建立的文本識別模型可以覆蓋不同的文本文件,以保證所建立的文本識別模型的準(zhǔn)確性,并克服現(xiàn)有技術(shù)中使用重復(fù)獲取到的相同的文本文件所建立的文本識別模型的準(zhǔn)確性較低的問題。進(jìn)而保證采用本實施例中提供的文本識別模型建立方法所建立的文本識別模型可以準(zhǔn)確識別出文本圖片中的文本信息。
示例三是根據(jù)文本文件集合中文本文件的文件標(biāo)識和文本文件集合中文本文件的存儲位置標(biāo)識,從文本文件集合中選擇互不相同的文本文件作為特征文本文件的過程。
在示例三中,可以首先根據(jù)文本標(biāo)識從文本文件集合中批量選取文本標(biāo)識,此時,批量選取的文本標(biāo)識可能相同,再將不同的文本標(biāo)識存儲在不同的存儲位置上,相同的文本標(biāo)識存儲在相同的存儲位置上,使不同的文本標(biāo)識攜帶有互不相同的存儲位置標(biāo)識,然后,批量選取互不相同的存儲位置標(biāo)識,根據(jù)互不相同的存儲位置標(biāo)識得到互不相同的文件標(biāo)識,從而在文本文件集合中獲取對應(yīng)的互不相同的文本文件作為特征文本文件,建立文本識別模型。通過上述步驟,將批量獲取的可能重復(fù)的文件標(biāo)識中相同的文件標(biāo)識存儲在相同的位置,保證了互不相同的文件標(biāo)識對應(yīng)互不相同的存儲位置標(biāo)識,根據(jù)不同存儲位置標(biāo)識篩選出不同的文件標(biāo)識從文本文件集合中提取特征文本文件,使所建立的文本識別模型可以覆蓋不同的文本文件,以保證所建立的文本識別模型的準(zhǔn)確性,并克服現(xiàn)有技術(shù)中使用重復(fù)獲取到的相同的文本文件所建立的文本識別模型的準(zhǔn)確性較低的問題。進(jìn)而保證采用本實施例中提供的文本識別模型建立方法所建立的文本識別模型可以準(zhǔn)確識別出文本圖片中的文本信息。
需要說明的是,本實施例僅以文本標(biāo)識和存儲位置標(biāo)識為例說明如何獲取互不相同的文本文件建立文本識別模型,其他可以區(qū)分互不相同的文本文件的標(biāo)識或參數(shù)等信息也可以用來獲取互不相同的文本文件,屬于本發(fā)明的保護(hù)范圍,在此不再贅述。
在上述步驟s102中,獲取文本文件集合的方式可以是獲取現(xiàn)有的文本文件集合,也可以是根據(jù)預(yù)定規(guī)則生成文本文件集合。生成文本文件集合的方式可以但不限于批量生成文本文件,再從生成的文本文件中選取組成文本文件集合的文本文件,也可以選取已有的文本文件組成文本文件集合。
在生成文本文件集合前,還可以判斷是否對文本文件進(jìn)行處理,其中,處理方式包括但不限于:模糊、噪聲、銳化、光照等。
在本實施例中,為了獲取文本文件集合,可以將獲取的文本信息批量復(fù)制,得到大量的該文本信息,為每個文本信息設(shè)置不同的文本參數(shù),得到互不相同的大量文本文件組成文本文件集合。通過上述步驟,為大量相同的文本信息設(shè)置不同的文本參數(shù),得到互不相同的文本文件組成文本文件集合,保證了文本文件集合中存儲的是文本信息相同但文本參數(shù)互不相同的文本文件,確保在之后對文本文件的識別過程中可以從各種形式的文本文件中識別出該文本信息。
此外,在本實施例中,文本信息的獲取形式可以但不限于接收輸入的文本字符串,或者, 讀取系統(tǒng)中已存儲的文本字符串。
如果通過讀取系統(tǒng)中已存儲的文本字符串的方式獲取文本信息,那么將讀取的文本字符串按照預(yù)定規(guī)則分割成若干個不同的文本字符串,再在其中提取一個作為生成文本文件的文本信息。其中,分割單位可以但不限于是一行,多行,一個字,多個字,一個單詞,多個單詞等。
通過上述步驟,可以保證生成的文本文件攜帶有相同的文本信息,但文本信息的文本參數(shù)互不相同。滿足了文本識別模型的建立條件。
在本實施例中,文本參數(shù)可以但不限于包括以下至少之一:字體格式、字體顯示大小、空白字符大小比例、文字的間隔大小比例、文字的旋轉(zhuǎn)角度、文字的字體顏色、文字的透明度參數(shù)、文字的加粗程度、文字的傾斜程度、文字的下劃線繪制、背景圖片、文本信息在背景圖片中的顯示位置??蛇x地,在本實施例中,可以但不限于調(diào)用開源計算機(jī)視覺庫(opencv)的端口來設(shè)置上述文本信息的文本參數(shù)。
下面以背景圖片為例說明文本參數(shù)的設(shè)置過程。
在獲取文本信息后,然后為文本信息批量設(shè)置不同的文本參數(shù),分別將文本參數(shù)互不相同的文本信息添加到從背景圖片庫中獲取一張或多張背景圖片中,同一個文本信息可以添加到不同的背景圖片中生成不同的文本文件,不同的文本信息可以添加到同一張背景圖片中生成不同的文本文件,從而得到大量的文本文件。
可選地,在上述步驟s104中,可以根據(jù)文本文件集合中文本文件的文件標(biāo)識和/或文本文件集合中文本文件的存儲位置標(biāo)識從文本文件集合中選擇互不相同的文本文件作為特征文本文件。
可選地,在根據(jù)文本文件集合中文本文件的文件標(biāo)識和/或文本文件集合中文本文件的存儲位置標(biāo)識從文本文件集合中選擇互不相同的文本文件作為特征文本文件時,可以根據(jù)預(yù)設(shè)算法獲取第一預(yù)設(shè)數(shù)量的文本文件集合中的文件標(biāo)識,得到文件標(biāo)識集合,其中,文件標(biāo)識集合中相同的文本文件標(biāo)識所對應(yīng)的文本文件的存儲位置標(biāo)識相同;獲取文件標(biāo)識集合中的文件標(biāo)識對應(yīng)的互不相同的存儲位置標(biāo)識;根據(jù)互不相同的存儲位置標(biāo)識從文件標(biāo)識集合中篩選出第二預(yù)設(shè)數(shù)量的互不相同的文件標(biāo)識;從文本文件集合中提取互不相同的文件標(biāo)識對應(yīng)的文本文件作為特征文本文件。
下面舉例說明上述過程。
例1:根據(jù)互不相同的存儲位置標(biāo)識從文件標(biāo)識集合中篩選出第二預(yù)設(shè)數(shù)量的互不相同的文件標(biāo)識可以但不限于是如下過程:重復(fù)執(zhí)行以下步驟,直至獲取到的互不相同的文件標(biāo)識的數(shù)量達(dá)到第二預(yù)設(shè)數(shù)量:判斷當(dāng)前獲取到的互不相同的文件標(biāo)識的數(shù)量是否達(dá)到第二預(yù)設(shè)數(shù)量;在數(shù)量未達(dá)到第二預(yù)設(shè)數(shù)量時,從存儲位置標(biāo)識集合中獲取存儲位置標(biāo)識,并根據(jù)獲取到的存儲位置標(biāo)識生成當(dāng)前變量,其中,存儲位置標(biāo)識集合用于存儲還未用于生成變量的存儲位置標(biāo)識;在預(yù)設(shè)隨機(jī)數(shù)組中獲取與當(dāng)前變量對應(yīng)的隨機(jī)數(shù);從文件標(biāo)識集合中獲取 與該隨機(jī)數(shù)對應(yīng)的文件標(biāo)識作為當(dāng)前獲取到的互不相同的文件標(biāo)識;更新當(dāng)前獲取到的互不相同的文件標(biāo)識的數(shù)量,并將獲取到的存儲位置標(biāo)識從存儲位置標(biāo)識集合中刪除。
上述過程可以但不限于表示為:賦值當(dāng)前變量
例2:根據(jù)預(yù)設(shè)算法獲取第一預(yù)設(shè)數(shù)量的文本文件集合中的文件標(biāo)識的過程可以是:根據(jù)預(yù)設(shè)隨機(jī)數(shù)發(fā)生器(例如:線性同余隨機(jī)數(shù)發(fā)生器)獲取第一預(yù)設(shè)數(shù)量的所述文件標(biāo)識。
可以通過以下公式根據(jù)線性同余隨機(jī)數(shù)發(fā)生器獲取第一預(yù)設(shè)數(shù)量的所述文件標(biāo)識:由xi=(axi-1+c)mod(m)生成的隨機(jī)數(shù)x1,x2…xi-1,xi構(gòu)成第一預(yù)設(shè)數(shù)量的文件標(biāo)識,其中,a,c,m,x0為預(yù)設(shè)參數(shù),m>0,0<a<m,0≤c<m。
可選地,獲取文本文件集合的過程可以是:獲取文本信息;批量復(fù)制文本信息,得到多個文本信息;分別為多個文本信息設(shè)置文本參數(shù),得到互不相同的文本文件,其中,所述文本文件集合包括所述互不相同的文本文件。
可選地,可以通過接收輸入的第一文本字符串作為文本信息;或者讀取系統(tǒng)中存儲的第二文本字符串;根據(jù)預(yù)設(shè)策略分割第二文本字符串,得到文本字符串集合;提取文本字符串集合中的一個第三文本字符串作為文本信息的方式獲取文本信息。
可選地,文本參數(shù)可以但不限于包括以下至少之一:文本信息中文字的字體格式參數(shù)、文本信息中文字的字體顯示大小參數(shù)、文本信息中空白字符大小比例參數(shù)、文本信息中文字的間隔大小比例參數(shù)、文本信息中文字的旋轉(zhuǎn)角度參數(shù)、文本信息中文字的字體顏色參數(shù)、文本信息中文字的透明度參數(shù)、文本信息中文字的加粗程度參數(shù)、文本信息中文字的傾斜程度參數(shù)、文本信息中文字的下劃線繪制參數(shù)、背景圖片、文本信息在背景圖片中的顯示位置參數(shù)。
在下面的示例和可選實施例中,文本文件以樣本為例,文本文件集合以批量樣本集合為 例,特征文本文件以特征樣本為例。
為了使本發(fā)明實施例的描述更加清楚,下面結(jié)合可選實施例進(jìn)行描述和說明。
本可選實施例提出了一種用于文本定位、檢測與識別的批量樣本生成方法。
本可選實施例解決了現(xiàn)有的基于機(jī)器學(xué)習(xí)進(jìn)行復(fù)雜背景文本圖片的ocr時,可能重復(fù)獲取到相同的文本文件導(dǎo)致建立的文本識別模型的準(zhǔn)確性較低的問題。
本可選實施例的一種用于文本定位、檢測與識別的文本識別模型生成方法包括如下步驟:
步驟1,加載文本信息,可提供兩種加載方式:輸入文本字符串,若為此種模式,執(zhí)行步驟3;或者讀取現(xiàn)有文本字符串,若為此種模式,執(zhí)行步驟2;
步驟2,選取預(yù)定規(guī)則將讀入的文本字符串分割成若干對象,將分割完成的若干文本字符串保存至指定路徑;
步驟3,從背景圖片庫中選擇要加載的背景圖片;
步驟4,讀取分割后文本字符串或讀取輸入的字符串,對其進(jìn)行批量文本參數(shù)設(shè)置,文本參數(shù)包括以下至少之一:字體格式、字體顯示大小、空白字符大小比例、間隔大小比例、旋轉(zhuǎn)角度、顯示位置、字體顏色、透明度設(shè)置、加粗程度、傾斜程度、下劃線繪制等;
步驟5,將批量設(shè)置文本參數(shù)后的各類不同的文本信息添加到圖片背景中,生成文本文件;
步驟6,根據(jù)需求,判斷是否對文本文件進(jìn)行圖像處理:如需圖像處理,執(zhí)行步驟7,如無需圖像處理,執(zhí)行步驟8;
步驟7,對文本文件進(jìn)行圖像處理,其中,圖像處理包括:模糊、噪聲、銳化以及光照等;
步驟8,提供一種新型的改進(jìn)型線性同余隨機(jī)數(shù)發(fā)生器,保證獲取特征文本文件的任意隨機(jī)性:
步驟8-1、設(shè)定隨機(jī)規(guī)則給生成的文本文件:
xi=(axi-1+c)mod(m)
其中,x0為初始文本文件,m為模數(shù),m>0,a為乘子,0<a<m,c為增量,0≤c<m;x0,m,a,c為預(yù)設(shè)值。
步驟8-2、由步驟8-1生成xi和axi-1,其中,xi和axi-1為從文本文件集合中隨機(jī)選取的文件標(biāo)識;
步驟8-3、賦值變量
步驟8-4、賦值yi=v[n],其中v[n]為輔助隨機(jī)數(shù)組v[n]中的隨機(jī)數(shù);
步驟8-5、將得到的預(yù)設(shè)個數(shù)的隨機(jī)數(shù)yi對應(yīng)的xi提取,并獲取其對應(yīng)的文本文件作為特征文本文件;
步驟9,重新保存被選中的特征文本文件,對其重命名(例如:以順序數(shù)字重命名),生成文本識別模型。
具體結(jié)合以下示例進(jìn)行說明,如圖2所示是根據(jù)本發(fā)明可選實施例的文本識別模型建立方法的流程圖,其中,文本字符串以格式為*.txt的文本文檔為例。該流程包括如下步驟:
步驟s202,加載文本信息,判斷是否讀取文本字符串。其中,加載文本信息包括兩種加載方式:輸入文本字符串,或者從預(yù)存的文本字符串中獲取。判斷出是讀取文本字符串(即需要從預(yù)存的文本字符串中獲取)時,則執(zhí)行步驟s204-2,判斷出不是讀取文本字符串(即需要輸入文本字符串)時,則執(zhí)行步驟s204-1。
步驟s204-1、輸入文本字符串。
步驟s204-2、選取預(yù)定規(guī)則將讀入的文本字符串分割成若干對象,根據(jù)需求選擇“行分割”或“單詞分割”;將分割完成的若干文本字符串(格式為*.txt)保存至指定路徑,命名為路徑_a(path_a);在文件路徑path_a下找到需要處理的分割好的文本文件,命名為文件source-text.txt。
步驟s206,加載背景圖片。
從現(xiàn)有的背景圖片庫中選擇要加載的背景圖片(命名為background),背景圖片庫為開放的,可根據(jù)需要添加新的圖片文件進(jìn)入,支持的圖片格式為:windows位圖文件bmp、dib,jpeg文件jpeg、jpg、jpe,便攜式網(wǎng)絡(luò)圖png;便攜式圖像pbm,pgm,ppm、sunrasters圖像sr,ras、tiff圖像tiff,tif、openexrhdr圖像exr、jpeg2000圖片jp2。
步驟s208、批量操作,其中,步驟s208包括:
步驟s208-1、對文本字符串source-text.txt或輸入的文本字符串進(jìn)行文本參數(shù)批量設(shè)置:
批量字體格式設(shè)置:可選的格式包括但不限于如下字體庫的各種字體:
truetypefonts(andcollections)、type1fonts、cid-keyedtype1fonts、cfffonts、 opentypefonts(bothtruetypeandcffvariants)、sfnt-basedbitmapfonts、x11pcffonts、windowsfntfonts、bdffonts(includinganti-aliasedones);
批量字體尺寸設(shè)置:通過調(diào)整字體尺寸參數(shù),可以批量地設(shè)置字體顯示大小、空白字符大小比例、間隔大小比例、旋轉(zhuǎn)角度等尺寸參數(shù);
批量字體位置設(shè)置:設(shè)置文本顯示在圖片的位置,可以但不限于通過批量地設(shè)置文本左上角第一個像素點的橫縱坐標(biāo)進(jìn)行批量文本位置顯示設(shè)置;
批量字體顏色設(shè)置:采用rgb格式,通過設(shè)置r\g\b的不同數(shù)值組合預(yù)先設(shè)定好的數(shù)組,生成批量的不同顏色字體;
批量字體透明度設(shè)置:設(shè)置范圍可以為0~100%;
批量字體渲染效果設(shè)置:加粗(可單獨設(shè)置加粗程度、垂直加粗或水平加粗)、傾斜(可設(shè)置不同的傾斜角度)、描邊繪制、陰影繪制、下劃線繪制等。
步驟s208-2、將批量調(diào)參后的各類不同的文本文件分別寫入背景圖片(background)。
步驟s208-3、根據(jù)需求,判斷是否進(jìn)行圖像處理:如需進(jìn)行圖像處理,執(zhí)行步驟s208-4,如無需進(jìn)行圖像處理,執(zhí)行步驟s208-5。
步驟s208-4、組合選擇對步驟s208-2中得到的一系列文本文件進(jìn)行圖像處理,圖像處理可以包括模糊、噪聲、銳化以及光照等;在圖像處理后繼續(xù)執(zhí)行步驟s208-5。
步驟s208-5、重命名批量生成的文本文件(例如:以順序數(shù)字重命名),將文本文件存儲為新的格式,并選取其保存路徑_b(path_b)。
步驟s210、生成特征文本文件。
在步驟s210中,提供了一種新型的改進(jìn)型線性同余隨機(jī)數(shù)發(fā)生器,保證生成特征樣本的任意隨機(jī)性;上述新型的改進(jìn)型線性同余隨機(jī)數(shù)發(fā)生器的生成過程可以如圖3所示,通過上述改進(jìn)型線性同余隨機(jī)數(shù)發(fā)生器可以保證生成的特征文本文件的任意隨機(jī)性。上述生成過程的流程如圖3所示,包括如下步驟:
步驟s302、載入批量文本文件xi,設(shè)定隨機(jī)規(guī)則給生成的批量文本文件:
xi=(axi-1+c)mod(m)
其中,x0為初始文本文件,m為模數(shù),m>0,a為乘子,0<a<m,c為增量,0≤c<m;x0,m,a,c為預(yù)設(shè)值。
步驟s304、由步驟s302生成xi和axi-1,其中,xi和axi-1為從文本文件集合中隨機(jī)選取的文件標(biāo)識。
步驟s306、為n賦值,其中,
步驟s308、為yi賦值,其中,yi=v[n],v[n]為輔助隨機(jī)數(shù)組v[n]中的隨機(jī)數(shù)。
步驟s310、將得到的預(yù)設(shè)個數(shù)的隨機(jī)數(shù)yi對應(yīng)的xi提取,并在保存路徑path_b找到其對應(yīng)的文本文件。
步驟s312、重新保存被選中的文本文件重命名(以順序數(shù)字重命名),保存為目標(biāo)路徑(path_target),生成批量特征文本文件。
需要說明的是,本發(fā)明并不限于使用上述方法來得到能夠滿足訓(xùn)練機(jī)器學(xué)習(xí)的樣本數(shù)量,其他的隨機(jī)方法也可以用來生成特征文本文件。
步驟s212、選取特征文本文件的保存格式和路徑。
步驟s214、保存特征文本文件。
綜上所述,本發(fā)明實施例和可選實施例能夠根據(jù)需求大批量生成所需各種各樣的文本文件,其優(yōu)勢如下:首先,輸入的文本既可以通過編輯命令“個性化”輸入,又可以直接讀取現(xiàn)有的文本字符串,分割得到所需的文本段落。其次,加入大量方法,實現(xiàn)字體格式、字體顯示大小、空白字符大小比例、間隔大小比例、旋轉(zhuǎn)角度、顯示位置、字體顏色、透明度設(shè)置、加粗程度、傾斜程度、下劃線繪制等不同文本格式批量一次性生成,又加入模糊、噪聲、銳化以及光照等一系列的圖像處理操作,進(jìn)一步擴(kuò)展樣本的多樣性。此外,提供一種新型的改進(jìn)型線性同余隨機(jī)數(shù)發(fā)生器方法,保證了生成樣本的“隨機(jī)性”,為后續(xù)的基于機(jī)器學(xué)習(xí)的模型訓(xùn)練提供更加完善合理的樣本,確保其訓(xùn)練出的模型具有更高的準(zhǔn)確性。同時,文本識別模型建立方法,顯著節(jié)約了人力成本,大幅度提高機(jī)器學(xué)習(xí)的訓(xùn)練效率。
通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到根據(jù)上述實施例的方法可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品存儲在一個存儲介質(zhì)(如rom/ram、磁碟、光盤)中,包括若干指令用以使得一臺終端設(shè)備(可以是手機(jī),計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述的方法。
實施例二
在本實施例中還提供了一種文本識別模型建立裝置,該裝置用于實現(xiàn)上述實施例及可選 實施方式,已經(jīng)進(jìn)行過說明的不再贅述。如以下所使用的,術(shù)語“模塊”可以實現(xiàn)預(yù)定功能的軟件和/或硬件的組合。盡管以下實施例所描述的裝置較佳地以軟件來實現(xiàn),但是硬件,或者軟件和硬件的組合的實現(xiàn)也是可能并被構(gòu)想的。
圖4是根據(jù)本發(fā)明實施例的一種可選的文本識別模型建立裝置的結(jié)構(gòu)框圖,如圖4所示,該裝置包括:
1)獲取模塊42,用于獲取文本文件集合;
2)選擇模塊44,耦合至獲取模塊42,用于從文本文件集合中選擇互不相同的文本文件作為特征文本文件;
3)建立模塊46,耦合至選擇模塊44,用于使用特征文本文件建立文本識別模型,其中,文本識別模型用于識別待識別的文本文件中的文本信息。
可選地,本實施例可以但不限于應(yīng)用于建立文本識別模型的場景中。特別是在光學(xué)字符識別場景下建立用于機(jī)器學(xué)習(xí)的文本識別模型。
通過上述裝置,首先獲取模塊42獲取大量的文本文件組成文本文件集合,選擇模塊44再從文本文件集合中自動選取互不相同的文本文件由建立模塊46來建立用于識別文本文件中文本信息的文本識別模型,使所建立的文本識別模型可以覆蓋不同的文本文件,以保證所建立的文本識別模型的準(zhǔn)確性,并克服現(xiàn)有技術(shù)中使用重復(fù)獲取到的相同的文本文件所建立的文本識別模型的準(zhǔn)確性較低的問題。進(jìn)而保證采用本實施例中提供的文本識別模型建立方法所建立的文本識別模型可以準(zhǔn)確識別出文本圖片中的文本信息。
此外,通過從文本文件集合中自動選取互不相同的文本文件來建立文本識別模型的方式,還可以減少作為訓(xùn)練樣本,用于建立文本識別模型的文本文件的數(shù)量,即減少重復(fù)獲取到的文本文件的數(shù)量,從而實現(xiàn)提高建立文本識別模型的效率,進(jìn)而避免所獲取的文本文件數(shù)量過多所導(dǎo)致的建立文本識別模型的效率較低問題。
在本實施例中,選擇模塊44可以但不限于用于根據(jù)文本文件集合中文本文件的文件標(biāo)識和/或文本文件集合中文本文件的存儲位置標(biāo)識從文本文件集合中選擇互不相同的文本文件作為特征文本文件。
下面通過三個示例說明選擇模塊44從所述文本文件集合中選擇互不相同的文本文件作為特征文本文件的過程。
示例一是選擇模塊44根據(jù)文本文件集合中文本文件的文件標(biāo)識,從文本文件集合中選擇互不相同的文本文件作為特征文本文件的過程。
在示例一中,由于在文本文件集合中不同的文本文件攜帶有不同的文件標(biāo)識,因此選擇模塊44可以通過預(yù)設(shè)算法批量選擇文件標(biāo)識,再刪除其中相同的文件標(biāo)識,保留互不相同的文件標(biāo)識。然后,根據(jù)篩選出的互不相同的文件標(biāo)識從文本文件集合中提取對應(yīng)的文本文件作為特征文本文件建立文本識別模型。通過上述裝置,根據(jù)不同文本文件攜帶不同文本標(biāo)識 的特點獲取特征文本文件,使所建立的文本識別模型可以覆蓋不同的文本文件,以保證所建立的文本識別模型的準(zhǔn)確性,并克服現(xiàn)有技術(shù)中使用重復(fù)獲取到的相同的文本文件所建立的文本識別模型的準(zhǔn)確性較低的問題。進(jìn)而保證采用本實施例中提供的文本識別模型建立方法所建立的文本識別模型可以準(zhǔn)確識別出文本圖片中的文本信息。
示例二是選擇模塊44根據(jù)文本文件集合中文本文件的存儲位置標(biāo)識,從文本文件集合中選擇互不相同的文本文件作為特征文本文件的過程。
在示例二中,由于在文本文件集合中不同的文本文件存儲位置不同,因此攜帶有不同的存儲位置標(biāo)識,選擇模塊44可以通過預(yù)設(shè)算法批量選擇存儲位置標(biāo)識,再刪除其中相同的存儲位置標(biāo)識,保留互不相同的存儲位置標(biāo)識。然后,根據(jù)篩選出的互不相同的存儲位置標(biāo)識從文本文件集合中提取對應(yīng)的文本文件作為特征文本文件建立文本識別模型。通過上述裝置,根據(jù)不同文本文件存儲位置不同導(dǎo)致攜帶不同存儲位置標(biāo)識的特點獲取特征文本文件,使所建立的文本識別模型可以覆蓋不同的文本文件,以保證所建立的文本識別模型的準(zhǔn)確性,并克服現(xiàn)有技術(shù)中使用重復(fù)獲取到的相同的文本文件所建立的文本識別模型的準(zhǔn)確性較低的問題。進(jìn)而保證采用本實施例中提供的文本識別模型建立方法所建立的文本識別模型可以準(zhǔn)確識別出文本圖片中的文本信息。
示例三是選擇模塊44根據(jù)文本文件集合中文本文件的文件標(biāo)識和文本文件集合中文本文件的存儲位置標(biāo)識,從文本文件集合中選擇互不相同的文本文件作為特征文本文件的過程。
在示例三中,選擇模塊44可以首先根據(jù)文本標(biāo)識從文本文件集合中批量選取文本標(biāo)識,此時,批量選取的文本標(biāo)識可能相同,再將不同的文本標(biāo)識存儲在不同的存儲位置上,相同的文本標(biāo)識存儲在相同的存儲位置上,使不同的文本標(biāo)識攜帶有互不相同的存儲位置標(biāo)識,然后,批量選取互不相同的存儲位置標(biāo)識,根據(jù)互不相同的存儲位置標(biāo)識得到互不相同的文件標(biāo)識,從而在文本文件集合中獲取對應(yīng)的互不相同的文本文件作為特征文本文件,建立文本識別模型。通過上述裝置,將批量獲取的可能重復(fù)的文件標(biāo)識中相同的文件標(biāo)識存儲在相同的位置,保證了互不相同的文件標(biāo)識對應(yīng)互不相同的存儲位置標(biāo)識,根據(jù)不同存儲位置標(biāo)識篩選出不同的文件標(biāo)識從文本文件集合中提取特征文本文件,使所建立的文本識別模型可以覆蓋不同的文本文件,以保證所建立的文本識別模型的準(zhǔn)確性,并克服現(xiàn)有技術(shù)中使用重復(fù)獲取到的相同的文本文件所建立的文本識別模型的準(zhǔn)確性較低的問題。進(jìn)而保證采用本實施例中提供的文本識別模型建立方法所建立的文本識別模型可以準(zhǔn)確識別出文本圖片中的文本信息。
需要說明的是,本實施例僅以文本標(biāo)識和存儲位置標(biāo)識為例說明如何獲取互不相同的文本文件建立文本識別模型,其他可以區(qū)分互不相同的文本文件的標(biāo)識或參數(shù)等信息也可以用來獲取互不相同的文本文件,屬于本發(fā)明的保護(hù)范圍,在此不再贅述。
上述獲取模塊42獲取文本文件集合的方式可以是獲取現(xiàn)有的文本文件集合,也可以是根據(jù)預(yù)定規(guī)則生成文本文件集合。生成文本文件集合的方式可以但不限于批量生成文本文件,再從生成的文本文件中選取組成文本文件集合的文本文件,也可以選取已有的文本文件組成 文本文件集合。
獲取模塊42還可以在生成文本文件集合前,判斷是否對文本文件進(jìn)行處理,其中,處理方式包括但不限于:模糊、噪聲、銳化、光照等。
在本實施例中,獲取模塊42為了獲取文本文件集合,可以將獲取的文本信息批量復(fù)制,得到大量的該文本信息,為每個文本信息設(shè)置不同的文本參數(shù),得到互不相同的大量文本文件組成文本文件集合。通過上述裝置,為大量相同的文本信息設(shè)置不同的文本參數(shù),得到互不相同的文本文件組成文本文件集合,保證了文本文件集合中存儲的是文本信息相同但文本參數(shù)互不相同的文本文件,確保在之后對文本文件的識別過程中可以從各種形式的文本文件中識別出該文本信息。
此外,在本實施例中,獲取模塊42獲取文本信息的形式可以但不限于接收輸入的文本字符串,或者,讀取系統(tǒng)中已存儲的文本字符串。
如果通過讀取系統(tǒng)中已存儲的文本字符串的方式獲取文本信息,那么獲取模塊42將讀取的文本字符串按照預(yù)定規(guī)則分割成若干個不同的文本字符串,再在其中提取一個作為生成文本文件的文本信息。其中,分割單位可以但不限于是一行,多行,一個字,多個字,一個單詞,多個單詞等。
通過上述裝置,可以保證生成的文本文件攜帶有相同的文本信息,但文本信息的文本參數(shù)互不相同。滿足了文本識別模型的建立條件。
在本實施例中,文本參數(shù)可以但不限于包括以下至少之一:字體格式、字體顯示大小、空白字符大小比例、文字的間隔大小比例、文字的旋轉(zhuǎn)角度、文字的字體顏色、文字的透明度參數(shù)、文字的加粗程度、文字的傾斜程度、文字的下劃線繪制、背景圖片、文本信息在背景圖片中的顯示位置??蛇x地,在本實施例中,可以但不限于調(diào)用opencv的端口來設(shè)置上述文本信息的文本參數(shù)。
下面以背景圖片為例說明文本參數(shù)的設(shè)置過程。
獲取模塊42在獲取文本信息后,為文本信息批量設(shè)置不同的文本參數(shù),分別將文本參數(shù)互不相同的文本信息添加到從背景圖片庫中獲取一張或多張背景圖片中,同一個文本信息可以添加到不同的背景圖片中生成不同的文本文件,不同的文本信息可以添加到同一張背景圖片中生成不同的文本文件,從而得到大量的文本文件。
可選地,選擇模塊44用于:根據(jù)文本文件集合中文本文件的文件標(biāo)識和/或文本文件集合中文本文件的存儲位置標(biāo)識從文本文件集合中選擇互不相同的文本文件作為特征文本文件。
圖5是根據(jù)本發(fā)明實施例的另一種可選的文本識別模型建立裝置的結(jié)構(gòu)框圖,如圖5所示,可選地,選擇模塊44包括:
1)第一獲取單元52,用于根據(jù)預(yù)設(shè)算法獲取第一預(yù)設(shè)數(shù)量的文本文件集合中的文件標(biāo)識,得到文件標(biāo)識集合,其中,文件標(biāo)識集合中相同的文本文件標(biāo)識所對應(yīng)的文本文件的存 儲位置標(biāo)識相同;
2)第二獲取單元54,耦合至第一獲取單元52,用于獲取文件標(biāo)識集合中的文件標(biāo)識對應(yīng)的互不相同的存儲位置標(biāo)識;
3)選擇單元56,耦合至第二獲取單元54,用于根據(jù)互不相同的存儲位置標(biāo)識從文件標(biāo)識集合中選擇第二預(yù)設(shè)數(shù)量的互不相同的文件標(biāo)識;
4)提取單元58,耦合至選擇單元56,用于從文本文件集合中提取互不相同的文件標(biāo)識對應(yīng)的文本文件作為特征文本文件。
圖6是根據(jù)本發(fā)明實施例的另一種可選的文本識別模型建立裝置的結(jié)構(gòu)框圖,如圖6所示,可選地,獲取模塊42包括:
1)第三獲取單元62,用于獲取文本信息;
2)復(fù)制單元64,耦合至第三獲取單元62,用于批量復(fù)制文本信息,得到多個文本信息;
3)設(shè)置單元66,耦合至復(fù)制單元64,用于分別為多個文本信息設(shè)置文本參數(shù),得到互不相同的文本文件,其中,文本文件集合包括互不相同的文本文件。
可選地,第三獲取單元62用于:接收輸入的第一文本字符串作為文本信息;或者讀取系統(tǒng)中存儲的第二文本字符串;根據(jù)預(yù)設(shè)策略分割第二文本字符串,得到文本字符串集合;提取文本字符串集合中的一個第三文本字符串作為文本信息。
可選地,文本參數(shù)包括以下至少之一:文本信息中文字的字體格式參數(shù)、文本信息中文字的字體顯示大小參數(shù)、文本信息中空白字符大小比例參數(shù)、文本信息中文字的間隔大小比例參數(shù)、文本信息中文字的旋轉(zhuǎn)角度參數(shù)、文本信息中文字的字體顏色參數(shù)、文本信息中文字的透明度參數(shù)、文本信息中文字的加粗程度參數(shù)、文本信息中文字的傾斜程度參數(shù)、文本信息中文字的下劃線繪制參數(shù)、背景圖片、文本信息在背景圖片中的顯示位置參數(shù)。
需要說明的是,上述各個模塊是可以通過軟件或硬件來實現(xiàn)的,對于后者,可以通過以下方式實現(xiàn),但不限于此:上述模塊均位于同一處理器中;或者,上述模塊分別位于多個處理器中。
實施例三
本發(fā)明的實施例還提供了一種存儲介質(zhì)。在本實施例中,上述存儲介質(zhì)可以被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:
步驟s1,獲取文本文件集合;
步驟s2,從文本文件集合中選擇互不相同的文本文件作為特征文本文件;
步驟s3,使用特征文本文件建立文本識別模型,其中,文本識別模型用于識別待識別的 文本文件中的文本信息。
可選地,在本實施例中,上述存儲介質(zhì)可以包括但不限于:u盤、只讀存儲器(read-onlymemory,簡稱為rom)、隨機(jī)存取存儲器(randomaccessmemory,簡稱為ram)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,并且在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
以上所述僅為本發(fā)明的可選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。