本發(fā)明所屬技術(shù)領(lǐng)域?yàn)閳D像處理,尤其涉及一種詞典圖片分割方法及裝置。
背景技術(shù):
圖像分割是圖像處理和計(jì)算機(jī)視覺(jué)中基本而關(guān)鍵的技術(shù)之一,其目的是將目標(biāo)和背景分離。圖像分割就是指把圖像分成各具特性的區(qū)域并提取出感興趣目標(biāo)的技術(shù)和過(guò)程,為后續(xù)的分類(lèi)、識(shí)別和檢索提供依據(jù)。
在翻譯領(lǐng)域,把詞典圖片分割成若干術(shù)語(yǔ)圖片,成為擴(kuò)充語(yǔ)料庫(kù)的重要來(lái)源。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種詞典圖片分割方法及裝置,目的是為翻譯人員進(jìn)行詞典圖片的詞條分割,即將一副詞典圖片按詞條分割為多個(gè)小圖片,以分發(fā)給不同的翻譯人員進(jìn)行翻譯,提高團(tuán)隊(duì)翻譯效率。
為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種詞典圖片分割方法,包括如下步驟:
獲取待處理的詞典圖片,放在同一目錄下;
以段落為單元進(jìn)行識(shí)別,同時(shí)進(jìn)行詞典圖片的分割和標(biāo)記;
判斷噪聲并過(guò)濾噪聲;
生成預(yù)覽圖;
生成分割結(jié)果圖;
通過(guò)圖片批量重命名,將圖片合并到生成結(jié)果圖目錄中,按照原圖的欄-段落對(duì)應(yīng)生成圖片文件名的命名規(guī)則來(lái)保證生成圖與原圖的唯一對(duì)應(yīng)關(guān)系。
進(jìn)一步,所述以段落為單元進(jìn)行識(shí)別,包括段落識(shí)別步驟,所述段落識(shí)別步驟為通過(guò)設(shè)置段落識(shí)別參數(shù)來(lái)進(jìn)行段落識(shí)別,所述段落識(shí)別參數(shù)包括行首空白的像素,垂直間距空白的像素,和不分段。
進(jìn)一步,所述以段落為單元進(jìn)行識(shí)別,還包括在段落識(shí)別步驟之前進(jìn)行欄識(shí)別步驟,所述欄識(shí)別步驟為通過(guò)設(shè)置欄識(shí)別參數(shù)進(jìn)行欄識(shí)別,欄識(shí)別參數(shù)包括兩欄之間的水平間距或者指定為單欄模式來(lái)確定欄數(shù)量。
進(jìn)一步,所述噪聲包括第一類(lèi)噪聲,是掃描過(guò)程中產(chǎn)生的或紙張本身存在的污點(diǎn),通過(guò)設(shè)置將小于指定寬度或者高度的像素區(qū)域判斷為噪聲。
進(jìn)一步,所述噪聲還包括第二類(lèi)噪聲,是掃描過(guò)程中背面部分文字映射到正面造成的像素干擾,通過(guò)設(shè)置灰度值判斷為噪聲。
本發(fā)明還提供一種詞典圖片分割裝置,其特征是:包括圖片預(yù)處理模塊,圖片欄識(shí)別模塊,圖片段落識(shí)別模塊,圖片噪聲過(guò)濾模塊,圖片預(yù)覽模塊,分割圖片生成模塊,圖片批量重命名模塊,
所述圖片預(yù)處理模塊,用于獲取待處理的詞典圖片,放在同一目錄下;
所述圖片欄識(shí)別模塊, 用于通過(guò)設(shè)置欄識(shí)別參數(shù)進(jìn)行欄識(shí)別;
所述圖片段落識(shí)別模塊,用于通過(guò)設(shè)置段落識(shí)別參數(shù)來(lái)進(jìn)行段落識(shí)別;
所述圖片噪聲過(guò)濾模塊,用于判斷噪聲和過(guò)濾噪聲;
所述圖片預(yù)覽模塊,用于生成預(yù)覽圖;
所述分割圖片生成模塊,用于分割圖片并生成分割效果圖;
所述圖片批量重命名模塊,用于通過(guò)圖片批量重命名,將圖片合并到生成結(jié)果圖目錄中,按照原圖的欄-段落對(duì)應(yīng)生成圖片文件名的命名規(guī)則來(lái)保證生成圖與原圖的唯一對(duì)應(yīng)關(guān)系。
優(yōu)選地,所述噪聲包括第一類(lèi)噪聲,是掃描過(guò)程中產(chǎn)生的或紙張本身存在的污點(diǎn),通過(guò)設(shè)置將小于指定寬度或者高度的像素區(qū)域判斷為噪聲 。
優(yōu)選地,所述噪聲還包括第二類(lèi)噪聲,是掃描過(guò)程中背面部分文字映射到正面造成的像素干擾,通過(guò)設(shè)置灰度值判斷為噪聲。
本發(fā)明的有益效果是:
1、通過(guò)對(duì)圖片欄數(shù)的判斷與段落的識(shí)別解決了文檔拆分的難題;
2、通過(guò)對(duì)對(duì)圖片噪聲的過(guò)濾提高了圖片識(shí)別的準(zhǔn)確率;
3、將文件中的各個(gè)段落圖片分發(fā)給不同成員進(jìn)行處理,提供了工作效率,加快了處理速度,也增強(qiáng)了團(tuán)隊(duì)協(xié)作能力。
附圖說(shuō)明
此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定,在附圖中:
圖1為本發(fā)明的流程示意圖;
圖2為本發(fā)明的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步具體說(shuō)明。
實(shí)施方式1:如圖1所示,為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種詞典圖片分割方法,包括如下6個(gè)步驟:
1. 獲取待處理的詞典圖片
a)將掃描儀掃描的詞典圖片或者其它途徑獲取的電子版詞典圖片,放到一個(gè)目錄下;
2. 以段落為單元,進(jìn)行詞典圖片的分割和標(biāo)記
a)待處理圖片的欄的識(shí)別;通過(guò)設(shè)置兩欄之間的水平間距或者直接指定為單欄模式來(lái)確定圖片有多少欄;
b)待處理圖片的段落的識(shí)別;通過(guò)設(shè)置行首空白的像素,或者垂直間距空白的像素,或者設(shè)置為不分段來(lái)進(jìn)行段落識(shí)別;
3. 干擾因素的判斷及過(guò)濾
a)第一類(lèi)噪聲:掃描過(guò)程中產(chǎn)生的或紙張本身存在的污點(diǎn)。通過(guò)設(shè)置將小于指定寬度或者高度的像素區(qū)域視為噪聲;
b)第二類(lèi)噪聲:由于紙張本身較薄,使得掃描過(guò)程中背面部分文字映射到正面造成的像素干擾,通過(guò)設(shè)置灰度值(映射過(guò)來(lái)的文字較之正面更淡,轉(zhuǎn)換為灰度像素后像素值更高)將其過(guò)濾;
4. 生成預(yù)覽
a)通過(guò)生成預(yù)覽圖,剔除掉不理想的結(jié)果進(jìn)行手動(dòng)處理后再次生成,來(lái)達(dá)到較好的結(jié)果;
5. 生成圖片
a)選擇保存格式,指定生成圖片的寬度(高度則等比例縮放);
6.圖片批量重命名
通過(guò)圖片批量重命名功能,將增加或刪除的圖片合并到生成結(jié)果圖目錄中,按照原圖的欄-段落對(duì)應(yīng)生成圖片文件名的命名規(guī)則來(lái)保證生成圖與原圖的唯一對(duì)應(yīng)關(guān)系。
實(shí)施方式2: 如圖2所示,為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種詞典圖片分割裝置,其特征是:包括圖片預(yù)處理模塊,圖片欄識(shí)別模塊,圖片段落識(shí)別模塊,圖片噪聲過(guò)濾模塊,圖片預(yù)覽模塊,分割圖片生成模塊,圖片批量重命名模塊,
所述圖片預(yù)處理模塊,用于獲取待處理的詞典圖片,放在同一目錄下;
所述圖片欄識(shí)別模塊, 用于通過(guò)設(shè)置欄識(shí)別參數(shù)進(jìn)行欄識(shí)別;
所述圖片段落識(shí)別模塊,用于通過(guò)設(shè)置段落識(shí)別參數(shù)來(lái)進(jìn)行段落識(shí)別;
所述圖片噪聲過(guò)濾模塊,用于判斷噪聲和過(guò)濾噪聲;
所述圖片預(yù)覽模塊,用于生成預(yù)覽圖;
所述分割圖片生成模塊,用于分割圖片并生成分割效果圖;
所述圖片批量重命名模塊,用于通過(guò)圖片批量重命名,將圖片合并到生成結(jié)果圖目錄中,按照原圖的欄-段落對(duì)應(yīng)生成圖片文件名的命名規(guī)則來(lái)保證生成圖與原圖的唯一對(duì)應(yīng)關(guān)系。
優(yōu)選地,所述噪聲包括第一類(lèi)噪聲,是掃描過(guò)程中產(chǎn)生的或紙張本身存在的污點(diǎn),通過(guò)設(shè)置將小于指定寬度或者高度的像素區(qū)域判斷為噪聲 。
優(yōu)選地,所述噪聲還包括第二類(lèi)噪聲,是掃描過(guò)程中背面部分文字映射到正面造成的像素干擾,通過(guò)設(shè)置灰度值判斷為噪聲。
最后所應(yīng)說(shuō)明的是,以上具體實(shí)施方式僅用以說(shuō)明本發(fā)明的技術(shù)方案而非限制,盡管參照較佳實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。