本發(fā)明涉及語(yǔ)種識(shí)別技術(shù)領(lǐng)域,特別涉及一種語(yǔ)種識(shí)別的方法及裝置。
背景技術(shù):
隨著科技的發(fā)展及國(guó)際化,人們工作中經(jīng)常會(huì)接觸到各語(yǔ)種的文件,因此語(yǔ)種識(shí)別成為當(dāng)即需要解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的是電子文檔中文字語(yǔ)種難以識(shí)別的技術(shù)問(wèn)題。
為了解決上述問(wèn)題,本發(fā)明提供了一種語(yǔ)種識(shí)別的方法,包括:步驟一,分批次讀取文字;步驟二,識(shí)別讀入的是一個(gè)字還是一個(gè)字符,如果是一個(gè)字符,判斷接下來(lái)讀取的內(nèi)容,是一個(gè)字或還是一個(gè)字符,遞歸讀取判斷,直到完整識(shí)別出是一個(gè)字符還是連續(xù)的字符即一個(gè)詞;步驟三,識(shí)別最終識(shí)別出來(lái)的一個(gè)字、一個(gè)詞或是一個(gè)字符的語(yǔ)種。
本發(fā)明還提供了一種語(yǔ)種識(shí)別的裝置,包括:讀取單元,分批次讀取文字;語(yǔ)種識(shí)別單元,識(shí)別讀入的是一個(gè)字還是一個(gè)字符,如果是一個(gè)字符,判斷接下來(lái)讀取的內(nèi)容,是一個(gè)字或還是一個(gè)字符,遞歸讀取判斷,直到完整識(shí)別出是一個(gè)字符還是連續(xù)的字符即一個(gè)詞;識(shí)別最終識(shí)別出來(lái)的一個(gè)字、一個(gè)詞或是一個(gè)字符的語(yǔ)種。
本發(fā)明的技術(shù)方案實(shí)現(xiàn)了一種語(yǔ)種識(shí)別的方法及裝置,解決了多語(yǔ)種文檔中文字識(shí)別難的技術(shù)問(wèn)題,準(zhǔn)確的識(shí)別出文檔中的文字。分批次讀取文字,可分分解較大文件,確保速度和準(zhǔn)確度,節(jié)省識(shí)別時(shí)間。逐字遞歸讀取判斷,可以精確識(shí)別的精準(zhǔn)度,減小誤差。
附圖說(shuō)明
圖1一種語(yǔ)種識(shí)別的方法示意圖;
圖2一種語(yǔ)種識(shí)別的方法流程示意圖;
圖3一種語(yǔ)種識(shí)別的裝置示意圖;
圖4一種語(yǔ)種識(shí)別的裝置結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明的技術(shù)方案進(jìn)行更詳細(xì)的說(shuō)明。
需要說(shuō)明的是,如果不沖突,本發(fā)明實(shí)施例以及實(shí)施例中的各個(gè)特征可以相互結(jié)合,均在本發(fā)明的保護(hù)范圍之內(nèi)。另外,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
實(shí)施例一,一種語(yǔ)種識(shí)別的方法,如圖1所示,包括:
步驟一,分批次讀取文字;讀取文字為待識(shí)別的兩種或是多種語(yǔ)言文檔或一串文字。
步驟二,識(shí)別讀入的是一個(gè)字還是一個(gè)字符,如果是一個(gè)字符,判斷接下來(lái)讀取的內(nèi)容,是一個(gè)字或還是一個(gè)字符,遞歸讀取判斷,直到完整識(shí)別出是一個(gè)字符還是連續(xù)的字符即一個(gè)詞;
根據(jù)一個(gè)編碼庫(kù)識(shí)別讀入的是一個(gè)字還是一個(gè)字符,每個(gè)字、字符或是符合都對(duì)應(yīng)一個(gè)唯一編碼。
步驟三,識(shí)別最終識(shí)別出來(lái)的一個(gè)字、一個(gè)詞或是一個(gè)字符的語(yǔ)種。識(shí)別是通過(guò)語(yǔ)種識(shí)別模型實(shí)現(xiàn)的,語(yǔ)種識(shí)別模型是根據(jù)多種語(yǔ)言的大量單語(yǔ)語(yǔ)料訓(xùn)練出來(lái)的語(yǔ)言模型,能準(zhǔn)確的識(shí)別出字、詞或是句子的語(yǔ)種。
識(shí)別過(guò)程:“大家好,我叫湯姆(TOM)”,這個(gè)句子,漢字部分,能直接根據(jù)編碼庫(kù)判斷出來(lái)是一個(gè)個(gè)字,“TOM”部分,首先讀取的是“T”,根據(jù)編碼庫(kù)判斷,是一個(gè)字符,然后繼續(xù)讀取下一個(gè)“O”,再根據(jù)編碼庫(kù)判斷,還是一個(gè)字符,繼續(xù)讀取下一個(gè)“M”,根據(jù)編碼庫(kù)判斷,還是一個(gè)字符,繼續(xù)讀取下一個(gè),下一個(gè)是符合了,算法則認(rèn)為TOM是一個(gè)詞。
本技術(shù)方案解決了多語(yǔ)種文檔中文字識(shí)別難的技術(shù)問(wèn)題,準(zhǔn)確的識(shí)別出文檔中的文字。分批次讀取文字,可分分解較大文件,確保速度和準(zhǔn)確度,節(jié)省識(shí)別時(shí)間。逐字遞歸讀取判斷,可以精確識(shí)別的精準(zhǔn)度,減小誤差。
實(shí)施例二,一種語(yǔ)種識(shí)別的方法,如圖2所示,在實(shí)施例一的基礎(chǔ)上。進(jìn)一步包括:
更優(yōu)的,所述步驟一之后,逐個(gè)字符的將讀取到的文字過(guò)濾掉標(biāo)點(diǎn)符號(hào)。
可以將讀取的文字放到內(nèi)存中;將讀取的文字,逐個(gè)字符,通過(guò)標(biāo)點(diǎn)符號(hào)算法,過(guò)濾掉標(biāo)點(diǎn)符號(hào);所述標(biāo)點(diǎn)符號(hào)算法是通過(guò)查詢標(biāo)點(diǎn)符號(hào)編碼庫(kù),來(lái)判斷是否是符號(hào)的方法。通過(guò)此步驟,后續(xù)讀取,不用再判斷標(biāo)點(diǎn)符號(hào)。
更優(yōu)的,記錄讀取的字、詞或是字符及對(duì)應(yīng)的語(yǔ)種。通過(guò)存儲(chǔ)器容器記錄傳進(jìn)來(lái)的字、詞或是字符及對(duì)應(yīng)的語(yǔ)種。
更優(yōu)的,當(dāng)全部讀取完成,根據(jù)所述記錄的信息,按語(yǔ)種統(tǒng)計(jì)出每個(gè)語(yǔ)種的字、詞或是字符的數(shù)量。當(dāng)整個(gè)文檔或是一串文字全部讀取完成,根據(jù)存儲(chǔ)器中記錄的語(yǔ)種,按語(yǔ)種統(tǒng)計(jì)出每個(gè)語(yǔ)種的字、詞或是字符的數(shù)量,是通過(guò)計(jì)數(shù)器計(jì)算統(tǒng)計(jì)每個(gè)語(yǔ)種的字、詞或是字符的數(shù)量的。
更優(yōu)的,統(tǒng)計(jì)出數(shù)量最多的語(yǔ)種是主語(yǔ)種,其他語(yǔ)種為副語(yǔ)種。
本發(fā)明是解決了對(duì)于文件中或一段文字中,含有兩種或多種語(yǔ)言,能識(shí)別出主語(yǔ)種,并根據(jù)主語(yǔ)種進(jìn)行其他業(yè)務(wù)判斷的應(yīng)用場(chǎng)景;如翻譯領(lǐng)域根據(jù)文件內(nèi)容的主語(yǔ)種進(jìn)行翻譯報(bào)價(jià),或是對(duì)一段文字中的主語(yǔ)種進(jìn)行文字提取等。
本發(fā)明讀取過(guò)濾掉標(biāo)點(diǎn)符號(hào)的字符串中的一個(gè)字或是一個(gè)字符,通過(guò)訓(xùn)練好的語(yǔ)種識(shí)別模型識(shí)別,完整的識(shí)別出一個(gè)字或一個(gè)詞的語(yǔ)種,并把這個(gè)字或詞及對(duì)應(yīng)語(yǔ)種轉(zhuǎn)向主副語(yǔ)種識(shí)別算法。能準(zhǔn)確識(shí)別一段文本或文檔(存在兩種及以上的語(yǔ)言)中主副語(yǔ)種;能準(zhǔn)確識(shí)別word、excel、txt常用文檔格式中的語(yǔ)種;能夠?qū)Υ笪募臋n進(jìn)行快速且準(zhǔn)確的識(shí)別。
實(shí)施例三,一種語(yǔ)種識(shí)別的裝置,如圖3所示,本實(shí)施例的裝置與實(shí)施例一的方法一一對(duì)應(yīng)。
包括:讀取單元,分批次讀取文字;讀取文字為待識(shí)別的兩種或是多種語(yǔ)言文檔或一串文字。
語(yǔ)種識(shí)別單元,識(shí)別讀入的是一個(gè)字還是一個(gè)字符,如果是一個(gè)字符,判斷接下來(lái)讀取的內(nèi)容,是一個(gè)字或還是一個(gè)字符,遞歸讀取判斷,直到完整識(shí)別出是一個(gè)字符還是連續(xù)的字符即一個(gè)詞;根據(jù)一個(gè)編碼庫(kù)識(shí)別讀入的是一個(gè)字還是一個(gè)字符,每個(gè)字、字符或是符合都對(duì)應(yīng)一個(gè)唯一編碼。
識(shí)別最終識(shí)別出來(lái)的一個(gè)字、一個(gè)詞或是一個(gè)字符的語(yǔ)種。識(shí)別是通過(guò)語(yǔ)種識(shí)別模型實(shí)現(xiàn)的,語(yǔ)種識(shí)別模型是根據(jù)多種語(yǔ)言的大量單語(yǔ)語(yǔ)料訓(xùn)練出來(lái)的語(yǔ)言模型,能準(zhǔn)確的識(shí)別出字、詞或是句子的語(yǔ)種。
識(shí)別過(guò)程:“大家好,我叫湯姆(TOM)”,這個(gè)句子,漢字部分,能直接根據(jù)編碼庫(kù)判斷出來(lái)是一個(gè)個(gè)字,“TOM”部分,首先讀取的是“T”,根據(jù)編碼庫(kù)判斷,是一個(gè)字符,然后繼續(xù)讀取下一個(gè)“O”,再根據(jù)編碼庫(kù)判斷,還是一個(gè)字符,繼續(xù)讀取下一個(gè)“M”,根據(jù)編碼庫(kù)判斷,還是一個(gè)字符,繼續(xù)讀取下一個(gè),下一個(gè)是符合了,算法則認(rèn)為TOM是一個(gè)詞。
本技術(shù)方案解決了多語(yǔ)種文檔中文字識(shí)別難的技術(shù)問(wèn)題,準(zhǔn)確的識(shí)別出文檔中的文字。分批次讀取文字,可分分解較大文件,確保速度和準(zhǔn)確度,節(jié)省識(shí)別時(shí)間。逐字遞歸讀取判斷,可以精確識(shí)別的精準(zhǔn)度,減小誤差。
實(shí)施例四,一種語(yǔ)種識(shí)別的裝置,如圖4所示,本實(shí)施例的裝置與實(shí)施例二的方法一一對(duì)應(yīng)。在實(shí)施例三的基礎(chǔ)上。進(jìn)一步包括:
更優(yōu)的,還包括標(biāo)點(diǎn)符號(hào)過(guò)濾單元,所述讀取單元,分批次讀取文字之后,標(biāo)點(diǎn)符號(hào)過(guò)濾單元逐個(gè)字符的將讀取到的文字過(guò)濾掉標(biāo)點(diǎn)符號(hào)??梢詫⒆x取的文字放到內(nèi)存中;將讀取的文字,逐個(gè)字符,通過(guò)標(biāo)點(diǎn)符號(hào)算法,過(guò)濾掉標(biāo)點(diǎn)符號(hào);所述標(biāo)點(diǎn)符號(hào)算法是通過(guò)查詢標(biāo)點(diǎn)符號(hào)編碼庫(kù),來(lái)判斷是否是符號(hào)的方法。通過(guò)此步驟,后續(xù)讀取,不用再判斷標(biāo)點(diǎn)符號(hào)。
更優(yōu)的,還包括主副語(yǔ)種識(shí)別單元,主副語(yǔ)種識(shí)別單元記錄讀取的字、詞或是字符及對(duì)應(yīng)的語(yǔ)種。通過(guò)存儲(chǔ)器容器記錄傳進(jìn)來(lái)的字、詞或是字符及對(duì)應(yīng)的語(yǔ)種。
更優(yōu)的,當(dāng)全部讀取完成,主副語(yǔ)種識(shí)別單元根據(jù)所述記錄的信息,按語(yǔ)種統(tǒng)計(jì)出每個(gè)語(yǔ)種的字、詞或是字符的數(shù)量。當(dāng)整個(gè)文檔或是一串文字全部讀取完成,根據(jù)存儲(chǔ)器中記錄的語(yǔ)種,按語(yǔ)種統(tǒng)計(jì)出每個(gè)語(yǔ)種的字、詞或是字符的數(shù)量,是通過(guò)計(jì)數(shù)器計(jì)算統(tǒng)計(jì)每個(gè)語(yǔ)種的字、詞或是字符的數(shù)量的。
更優(yōu)的,統(tǒng)計(jì)出數(shù)量最多的語(yǔ)種是主語(yǔ)種,其他語(yǔ)種為副語(yǔ)種。
本發(fā)明是解決了對(duì)于文件中或一段文字中,含有兩種或多種語(yǔ)言,能識(shí)別出主語(yǔ)種,并根據(jù)主語(yǔ)種進(jìn)行其他業(yè)務(wù)判斷的應(yīng)用場(chǎng)景;如翻譯領(lǐng)域根據(jù)文件內(nèi)容的主語(yǔ)種進(jìn)行翻譯報(bào)價(jià),或是對(duì)一段文字中的主語(yǔ)種進(jìn)行文字提取等。
本發(fā)明讀取過(guò)濾掉標(biāo)點(diǎn)符號(hào)的字符串中的一個(gè)字或是一個(gè)字符,通過(guò)訓(xùn)練好的語(yǔ)種識(shí)別模型識(shí)別,完整的識(shí)別出一個(gè)字或一個(gè)詞的語(yǔ)種,并把這個(gè)字或詞及對(duì)應(yīng)語(yǔ)種轉(zhuǎn)向主副語(yǔ)種識(shí)別算法。能準(zhǔn)確識(shí)別一段文本或文檔(存在兩種及以上的語(yǔ)言)中主副語(yǔ)種;能準(zhǔn)確識(shí)別word、excel、txt常用文檔格式中的語(yǔ)種;能夠?qū)Υ笪募臋n進(jìn)行快速且準(zhǔn)確的識(shí)別。
本領(lǐng)域普通技術(shù)人員可以理解上述方法中的全部或部分步驟可通過(guò)程序來(lái)指令相關(guān)硬件完成,所述程序可以存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,如只讀存儲(chǔ)器、磁盤或光盤等。可選地,上述實(shí)施例的全部或部分步驟也可以使用一個(gè)或多個(gè)集成電路來(lái)實(shí)現(xiàn)。相應(yīng)地,上述實(shí)施例中的各模塊/單元可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。本發(fā)明不限制于任何特定形式的硬件和軟件的結(jié)合。
當(dāng)然,本發(fā)明還可有其他多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明的權(quán)利要求的保護(hù)范圍。