本發(fā)明涉及數(shù)學(xué)公式識(shí)別領(lǐng)域,特別是涉及一種數(shù)學(xué)公式識(shí)別方法和一種數(shù)學(xué)公式識(shí)別裝置。
背景技術(shù):
在數(shù)學(xué)學(xué)科中,數(shù)學(xué)公式是學(xué)術(shù)文獻(xiàn)的重要組成部分,目前主要利用mathtype、latex兩種工具對(duì)數(shù)學(xué)公式進(jìn)行錄入,但隨著文檔資料數(shù)字化需求的進(jìn)一步增長(zhǎng),前面兩種方法面對(duì)大量的復(fù)雜的數(shù)學(xué)公式時(shí),編輯難度大,而且效率較低。
聯(lián)機(jī)手寫(xiě)數(shù)學(xué)公式識(shí)別可以為用戶提供類似于紙上書(shū)寫(xiě)的數(shù)學(xué)公式錄入方式,但由于數(shù)學(xué)公式復(fù)雜的結(jié)構(gòu)極大地增加了計(jì)算機(jī)識(shí)別的難度,且手寫(xiě)輸入設(shè)備的非精確性、書(shū)寫(xiě)筆體和速度、數(shù)學(xué)符號(hào)的二義性、結(jié)構(gòu)的多變性等都給手寫(xiě)數(shù)學(xué)公式的識(shí)別和編輯進(jìn)一步增加了難度。
而且在現(xiàn)有的聯(lián)機(jī)手寫(xiě)數(shù)學(xué)公式識(shí)別過(guò)程中,經(jīng)常會(huì)出現(xiàn)對(duì)字符的錯(cuò)識(shí)問(wèn)題,并且會(huì)將對(duì)字符的錯(cuò)識(shí)問(wèn)題疊加到對(duì)整個(gè)數(shù)學(xué)公式的分析中,從而影響最終的數(shù)學(xué)公式識(shí)別結(jié)果,導(dǎo)致識(shí)別手寫(xiě)的數(shù)學(xué)公式不準(zhǔn)確。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述問(wèn)題,提出了本發(fā)明實(shí)施例以便提供克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的一種數(shù)學(xué)公式識(shí)別方法和裝置。
為了解決上述問(wèn)題,本發(fā)明實(shí)施例公開(kāi)了一種數(shù)學(xué)公式識(shí)別的方法,所述方法包括:
接收輸入的圖像數(shù)據(jù),所述圖像數(shù)據(jù)的內(nèi)容包括手寫(xiě)的數(shù)學(xué)公式信息;
確定與所述數(shù)學(xué)公式信息匹配的一個(gè)或多個(gè)運(yùn)算關(guān)系類型,以及與每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的一個(gè)或多個(gè)特征區(qū)域;
識(shí)別所述一個(gè)或多個(gè)特征區(qū)域,得到一個(gè)或多個(gè)公式元素;
結(jié)合所述一個(gè)或多個(gè)運(yùn)算關(guān)系類型,將所述一個(gè)或多個(gè)公式元素組織成與所述數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式。
優(yōu)選地,所述確定與所述數(shù)學(xué)公式信息匹配的一個(gè)或多個(gè)運(yùn)算關(guān)系類型,以及每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的一個(gè)或多個(gè)特征區(qū)域的步驟包括:
將所述圖像數(shù)據(jù)輸入預(yù)先生成的卷積神經(jīng)網(wǎng)絡(luò)模型,經(jīng)由所述卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別出所述圖像數(shù)據(jù)中所包含的一個(gè)或多個(gè)運(yùn)算關(guān)系類型,以及,根據(jù)所述一個(gè)或多個(gè)運(yùn)算關(guān)系類型將所述圖像數(shù)據(jù)劃分后得到的一個(gè)或多個(gè)特征區(qū)域。
優(yōu)選地,所述卷積神經(jīng)網(wǎng)絡(luò)模型采用如下方式識(shí)別出所述圖像數(shù)據(jù)中所包含的一個(gè)或多個(gè)運(yùn)算關(guān)系類型:
分別采用預(yù)置的多種運(yùn)算關(guān)系類型的權(quán)重系數(shù)作為卷積核,對(duì)所述圖像數(shù)據(jù)進(jìn)行卷積操作,得到所述圖像數(shù)據(jù)在各個(gè)運(yùn)算關(guān)系類型中的概率;
基于所述圖像數(shù)據(jù)在各個(gè)運(yùn)算關(guān)系類型中的概率,確定所述圖像數(shù)據(jù)中所包含的一個(gè)或多個(gè)運(yùn)算關(guān)系類型。
優(yōu)選地,所述運(yùn)算關(guān)系類型具有對(duì)應(yīng)的結(jié)構(gòu)關(guān)系,所述特征區(qū)域包括單一區(qū)域和/或混合區(qū)域,所述識(shí)別所述一個(gè)或多個(gè)特征區(qū)域,得到一個(gè)或多個(gè)公式元素的步驟包括:
基于所述每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的結(jié)構(gòu)關(guān)系,將所述單一區(qū)域作為一個(gè)基本單元,以及,對(duì)所述混合區(qū)域進(jìn)行拆分,得到一個(gè)或多個(gè)基本單元;
采用預(yù)設(shè)的光學(xué)字符識(shí)別算法識(shí)別所述一個(gè)或多個(gè)基本單元,得到一個(gè)或多個(gè)公式元素。
優(yōu)選地,所述結(jié)合所述一個(gè)或多個(gè)運(yùn)算關(guān)系類型,將所述一個(gè)或多個(gè)公式元素組織成與所述數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式的步驟包括:
基于所述每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的結(jié)構(gòu)關(guān)系,確定所述每個(gè)公式元素的位置信息;
將所述每個(gè)公式元素放置在所述每個(gè)公式元素的位置信息對(duì)應(yīng)的位置,得到與所述數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式。
優(yōu)選地,所述將所述每個(gè)公式元素放置在所述每個(gè)公式元素的位置信息對(duì)應(yīng)的位置,得到與所述數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式的步驟包括:
針對(duì)混合區(qū)域,確定混合區(qū)域?qū)?yīng)的公式元素,結(jié)合所述混合區(qū)域?qū)?yīng)的公式元素的位置信息以及所述混合區(qū)域所包含的運(yùn)算關(guān)系類型,將所述混合區(qū)域?qū)?yīng)的公式元素組織成子公式;
針對(duì)單一區(qū)域,確定單一區(qū)域?qū)?yīng)的公式元素,將所述單一區(qū)域?qū)?yīng)的公式元素作為子公式;
對(duì)所有特征區(qū)域?qū)?yīng)的子公式進(jìn)行組合,得到與所述數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式。
優(yōu)選地,所述卷積神經(jīng)網(wǎng)絡(luò)模型采用如下方式生成:
獲取樣本圖像數(shù)據(jù),所述樣本圖像數(shù)據(jù)包括多個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的樣本圖像數(shù)據(jù);
分別對(duì)每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的樣本圖像數(shù)據(jù)進(jìn)行訓(xùn)練,得到卷積神經(jīng)網(wǎng)絡(luò)模型,所述卷積神經(jīng)網(wǎng)絡(luò)模型以每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的權(quán)重系數(shù)作為卷積核。
優(yōu)選地,所述數(shù)學(xué)公式信息的輸入方式至少包括:手寫(xiě)輸入設(shè)備、鼠標(biāo)輸入。
優(yōu)選地,所述單一區(qū)域包括數(shù)字或變量對(duì)應(yīng)的特征區(qū)域,所述混合區(qū)域包括數(shù)字或變量以及一個(gè)或多個(gè)至少以下運(yùn)算符對(duì)應(yīng)的特征區(qū)域:
分?jǐn)?shù)運(yùn)算符、開(kāi)方運(yùn)算符、極限運(yùn)算符、乘積運(yùn)算符。
本發(fā)明實(shí)施例公開(kāi)了一種數(shù)學(xué)公式識(shí)別的裝置,所述裝置包括:
接收模塊,用于接收輸入的圖像數(shù)據(jù),所述圖像數(shù)據(jù)的內(nèi)容包括手寫(xiě)的數(shù)學(xué)公式信息;
確定模塊,用于確定與所述數(shù)學(xué)公式信息匹配的一個(gè)或多個(gè)運(yùn)算關(guān)系類型,以及與每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的一個(gè)或多個(gè)特征區(qū)域;
識(shí)別模塊,用于識(shí)別所述一個(gè)或多個(gè)特征區(qū)域,得到一個(gè)或多個(gè)公式元素;
組織模塊,用于結(jié)合所述一個(gè)或多個(gè)運(yùn)算關(guān)系類型,將所述一個(gè)或多個(gè)公式元素組織成與所述數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式。
本發(fā)明實(shí)施例包括以下優(yōu)點(diǎn):
在本發(fā)明實(shí)施例中,通過(guò)接收輸入的包括手寫(xiě)的數(shù)學(xué)公式信息的圖像數(shù)據(jù),并確定與數(shù)學(xué)公式信息匹配的運(yùn)算關(guān)系類型,以及與每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的特征區(qū)域,識(shí)別特征區(qū)域而得到公式元素,最后結(jié)合運(yùn)算關(guān)系類型,將公式元素組織成與數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式,從而實(shí)現(xiàn)對(duì)手寫(xiě)數(shù)學(xué)公式的準(zhǔn)確識(shí)別,并且在識(shí)別過(guò)程中充分利用了數(shù)學(xué)公式的結(jié)構(gòu)性質(zhì),降低了字符識(shí)別的難度,優(yōu)化了整個(gè)識(shí)別過(guò)程的效果和流程,提升了對(duì)手寫(xiě)數(shù)學(xué)公式識(shí)別的精確性和識(shí)別速度,為用戶提供更加精準(zhǔn)、簡(jiǎn)便、快捷的數(shù)學(xué)公式輸入體驗(yàn)。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)本發(fā)明實(shí)施例的描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實(shí)施例的一種數(shù)學(xué)公式識(shí)別的方法的步驟流程圖;
圖2是本發(fā)明實(shí)施例的一種數(shù)學(xué)公式識(shí)別的方法的步驟流程圖;
圖3是本發(fā)明實(shí)施例的一種手寫(xiě)的數(shù)學(xué)公式示例圖;
圖4是本發(fā)明實(shí)施例的一種手寫(xiě)的數(shù)學(xué)公式示例圖;
圖5是本發(fā)明實(shí)施例的一種數(shù)學(xué)公式識(shí)別的裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例可以用于聯(lián)機(jī)識(shí)別手寫(xiě)數(shù)學(xué)公式,并錄入計(jì)算機(jī),在一定程度上滿足商業(yè)人員或數(shù)學(xué)學(xué)科領(lǐng)域人員在聯(lián)機(jī)狀態(tài)下,通過(guò)鼠標(biāo)或者手寫(xiě)輸入設(shè)備實(shí)現(xiàn)數(shù)學(xué)公式聯(lián)機(jī)錄入的需求。
聯(lián)機(jī)手寫(xiě)數(shù)學(xué)公式識(shí)別屬于模式識(shí)別系統(tǒng)的一個(gè)方向,模式識(shí)別又稱作模式分類,通過(guò)計(jì)算機(jī)用數(shù)學(xué)技術(shù)方法來(lái)研究模式的自動(dòng)處理和判讀,模式可以理解為存在有某種基本結(jié)構(gòu)組織的排列或有序化,也可以稱為某一事物或其他一些感興趣項(xiàng)目的定量或結(jié)構(gòu)上的描述。
在聯(lián)機(jī)手寫(xiě)數(shù)學(xué)公式識(shí)別中,分類和特征提取是系統(tǒng)最關(guān)鍵的部分。根據(jù)分類算法的不同,又可以將模式識(shí)別分為句法模式識(shí)別和統(tǒng)計(jì)模式識(shí)別。句法模式識(shí)別的基本思想是把一個(gè)模式描述為較簡(jiǎn)單的子模式的組合,子模式又可以描述未更簡(jiǎn)單的子模式的組合,從而做出識(shí)別分類;統(tǒng)計(jì)模式識(shí)別的分類方法主要有模塊匹配、概率分類、神經(jīng)網(wǎng)絡(luò)等。
聯(lián)機(jī)手寫(xiě)數(shù)學(xué)公式識(shí)別的流程可以包括為:手寫(xiě)輸入,符號(hào)分割,字符識(shí)別,結(jié)構(gòu)分析,系統(tǒng)糾錯(cuò),結(jié)果輸出,符號(hào)分割,字符識(shí)別和結(jié)構(gòu)分析是整個(gè)流程的核心部分,直接決定著最終識(shí)別結(jié)果的質(zhì)量。
其中,手寫(xiě)輸入可以包括通過(guò)手寫(xiě)板、鼠標(biāo)等設(shè)備輸入數(shù)學(xué)公式,在輸入過(guò)程中,將輸入比劃的軌跡坐標(biāo)進(jìn)行實(shí)時(shí)采樣并存儲(chǔ)在相應(yīng)的數(shù)據(jù)結(jié)構(gòu)中;符號(hào)分割可以包括將采集到的筆畫(huà)序列進(jìn)行分割,使每個(gè)字符對(duì)應(yīng)一個(gè)筆畫(huà)集合,然后提交給字符識(shí)別模塊進(jìn)行識(shí)別,根據(jù)字符識(shí)別反饋的準(zhǔn)確率來(lái)判斷分割的正確性;字符識(shí)別可以包括根據(jù)相關(guān)的字符識(shí)別算法來(lái)將分割的筆畫(huà)組合進(jìn)行識(shí)別,找出每個(gè)筆畫(huà)組最可能代表的字符;結(jié)構(gòu)分析可以包括判斷字符間的相對(duì)位置,結(jié)合表達(dá)式語(yǔ)法要求,分析輸入的表達(dá)式結(jié)構(gòu),將表達(dá)式結(jié)構(gòu)信息轉(zhuǎn)化為一種易于計(jì)算機(jī)處理的數(shù)據(jù)結(jié)構(gòu);系統(tǒng)糾錯(cuò)可以包括對(duì)數(shù)學(xué)公式識(shí)別過(guò)程中可能產(chǎn)生的各種錯(cuò)誤進(jìn)行分析和糾錯(cuò)處理;結(jié)果輸出可以包括數(shù)學(xué)公式識(shí)別完成后,得到的識(shí)別結(jié)果轉(zhuǎn)化成較成熟的數(shù)學(xué)公式語(yǔ)言輸出。
在本發(fā)明實(shí)施例中,通過(guò)將句法模式分類和結(jié)構(gòu)分析放在字符識(shí)別之前,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)聯(lián)機(jī)手寫(xiě)數(shù)據(jù)進(jìn)行分類,分為:數(shù)字或變量、積分、極限、開(kāi)方、分?jǐn)?shù)等,針對(duì)分類結(jié)果,利用結(jié)構(gòu)分析,將子結(jié)構(gòu)進(jìn)一步拆分為最基本的單元,即數(shù)字或變量,最后利用ocr實(shí)現(xiàn)對(duì)數(shù)字或變量的識(shí)別,從而在識(shí)別過(guò)程中充分利用了公式的結(jié)構(gòu)性質(zhì),降低了字符識(shí)別部分的難度,整體上優(yōu)化了整個(gè)識(shí)別系統(tǒng)的效果和流程。
下面對(duì)本發(fā)明實(shí)施例的具體實(shí)施方式進(jìn)行詳細(xì)說(shuō)明:
參照?qǐng)D1,示出了本發(fā)明實(shí)施例的一種數(shù)學(xué)公式識(shí)別的方法的步驟流程圖,具體可以包括如下步驟:
步驟101,接收輸入的圖像數(shù)據(jù),所述圖像數(shù)據(jù)的內(nèi)容包括手寫(xiě)的數(shù)學(xué)公式信息;
步驟102,確定與所述數(shù)學(xué)公式信息匹配的一個(gè)或多個(gè)運(yùn)算關(guān)系類型,以及與每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的一個(gè)或多個(gè)特征區(qū)域;
步驟103,識(shí)別所述一個(gè)或多個(gè)特征區(qū)域,得到一個(gè)或多個(gè)公式元素;
步驟104,結(jié)合所述一個(gè)或多個(gè)運(yùn)算關(guān)系類型,將所述一個(gè)或多個(gè)公式元素組織成與所述數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式。
在本發(fā)明實(shí)施例中,通過(guò)接收輸入的包括手寫(xiě)的數(shù)學(xué)公式信息的圖像數(shù)據(jù),并確定與數(shù)學(xué)公式信息匹配的運(yùn)算關(guān)系類型,以及與每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的特征區(qū)域,識(shí)別特征區(qū)域而得到公式元素,最后結(jié)合運(yùn)算關(guān)系類型,將公式元素組織成與數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式,從而實(shí)現(xiàn)對(duì)手寫(xiě)數(shù)學(xué)公式的準(zhǔn)確識(shí)別,并且在識(shí)別過(guò)程中充分利用了數(shù)學(xué)公式的結(jié)構(gòu)性質(zhì),降低了字符識(shí)別的難度,優(yōu)化了整個(gè)識(shí)別過(guò)程的效果和流程,提升了對(duì)手寫(xiě)數(shù)學(xué)公式識(shí)別的精確性和識(shí)別速度,為用戶提供更加精準(zhǔn)、簡(jiǎn)便、快捷的數(shù)學(xué)公式輸入體驗(yàn)。
參照?qǐng)D2,示出了本發(fā)明實(shí)施例的一種數(shù)學(xué)公式識(shí)別的方法的步驟流程圖,具體可以包括如下步驟:
步驟201,接收輸入的圖像數(shù)據(jù),所述圖像數(shù)據(jù)的內(nèi)容包括手寫(xiě)的數(shù)學(xué)公式信息;
在本發(fā)明實(shí)施例中,當(dāng)用戶需要錄入數(shù)學(xué)公式時(shí),可以通過(guò)聯(lián)機(jī)手寫(xiě)輸入的方式形成圖像數(shù)據(jù),本發(fā)明實(shí)施例可以接收輸入的圖像數(shù)據(jù)。
其中,圖像數(shù)據(jù)可以包括手寫(xiě)的數(shù)學(xué)公式信息,數(shù)學(xué)公式信息可以包括將聯(lián)機(jī)手寫(xiě)輸入的軌跡坐標(biāo)進(jìn)行實(shí)時(shí)采樣并存儲(chǔ)的數(shù)據(jù)。
作為一種示例,數(shù)學(xué)公式信息的輸入方式至少可以包括:手寫(xiě)輸入設(shè)備、鼠標(biāo)輸入等,例如,手寫(xiě)板等手寫(xiě)輸入設(shè)備。
當(dāng)然,本領(lǐng)域技術(shù)人員還可以采用其他方式輸入數(shù)學(xué)公式信息,如采用拍照的方式,將數(shù)學(xué)公式寫(xiě)在紙上并拍成照片,再將照片輸入,本發(fā)明實(shí)施例對(duì)此不作限制。
步驟202,確定與所述數(shù)學(xué)公式信息匹配的一個(gè)或多個(gè)運(yùn)算關(guān)系類型,以及與每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的一個(gè)或多個(gè)特征區(qū)域;
在接收輸入的圖像數(shù)據(jù)之后,本發(fā)明實(shí)施例可以采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像數(shù)據(jù)進(jìn)行匹配,從而確定與圖像數(shù)據(jù)中的數(shù)學(xué)公式信息匹配的一個(gè)或多個(gè)運(yùn)算關(guān)系類型,然后按照運(yùn)算關(guān)系類型對(duì)圖像數(shù)據(jù)進(jìn)行拆分,得到每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的特征區(qū)域。
作為一種示例,數(shù)學(xué)運(yùn)算類型可以為數(shù)字或變量與運(yùn)算符的組合的關(guān)系,運(yùn)算關(guān)系類型可以包括數(shù)字或變量、分?jǐn)?shù)、開(kāi)方、極限、乘積等。
卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)是一種前饋神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元,對(duì)于大型圖像處理有出色表現(xiàn)。
cnn的基本結(jié)構(gòu)包括兩層,其一為特征提取層,每個(gè)神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其它特征間的位置關(guān)系也隨之確定下來(lái);其二是特征映射層,網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射是一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。此外,由于一個(gè)映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中的每一個(gè)卷積層都緊跟著一個(gè)用來(lái)求局部平均與二次提取的計(jì)算層,這種特有的兩次特征提取結(jié)構(gòu)減小了特征分辨率。
cnn主要用來(lái)識(shí)別位移、縮放及其他形式扭曲不變性的二維圖形。由于cnn的特征檢測(cè)層通過(guò)訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),所以在使用cnn時(shí),避免了顯示的特征抽取,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí);再者由于同一特征映射面上的神經(jīng)元權(quán)值相同,所以網(wǎng)絡(luò)可以并行學(xué)習(xí),這也是卷積網(wǎng)絡(luò)相對(duì)于神經(jīng)元彼此相連網(wǎng)絡(luò)的一大優(yōu)勢(shì)。卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu)在語(yǔ)音識(shí)別和圖像處理方面有著獨(dú)特的優(yōu)越性,其布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點(diǎn)避免了特征提取和分類過(guò)程中數(shù)據(jù)重建的復(fù)雜度。
在本發(fā)明一種優(yōu)選實(shí)施例中,可以通過(guò)訓(xùn)練樣本圖像數(shù)據(jù)成卷積神經(jīng)網(wǎng)絡(luò)模型,然后采用卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)實(shí)現(xiàn)步驟202。
其中,卷積神經(jīng)網(wǎng)絡(luò)模型是一種模仿生物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型,卷積神經(jīng)網(wǎng)絡(luò)模型具體可以采用如下方式生成:
獲取樣本圖像數(shù)據(jù),所述樣本圖像數(shù)據(jù)包括多個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的樣本圖像數(shù)據(jù);分別對(duì)每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的樣本圖像數(shù)據(jù)進(jìn)行訓(xùn)練,得到卷積神經(jīng)網(wǎng)絡(luò)模型,所述卷積神經(jīng)網(wǎng)絡(luò)模型以每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的權(quán)重系數(shù)作為卷積核。
在本發(fā)明實(shí)施例中,可以將已經(jīng)確定運(yùn)算關(guān)系類型的圖像數(shù)據(jù)作為樣本圖像數(shù)據(jù),樣本圖像數(shù)據(jù)可以包括數(shù)學(xué)公式的主要公式形式,在搭建好的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練機(jī)對(duì)樣本圖像數(shù)據(jù)進(jìn)行訓(xùn)練,得到能夠?qū)D像數(shù)據(jù)中各種數(shù)學(xué)公式進(jìn)行分類的卷積神經(jīng)網(wǎng)絡(luò)分類算法,即卷積神經(jīng)網(wǎng)絡(luò)模型。
實(shí)際上,本發(fā)明實(shí)施例可以對(duì)屬于同一運(yùn)算關(guān)系類型的樣本圖像數(shù)據(jù)進(jìn)行訓(xùn)練,得到與該運(yùn)算關(guān)系類型對(duì)應(yīng)的權(quán)重系數(shù),而且權(quán)重系數(shù)是符合預(yù)置的精確度要求的。在獲得每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的權(quán)重系數(shù)之后,將權(quán)重系數(shù)作為卷積核,生成卷積神經(jīng)網(wǎng)絡(luò)模型。
在生成卷積神經(jīng)網(wǎng)絡(luò)模型之后,步驟202可以包括如下子步驟:
子步驟s11,將所述圖像數(shù)據(jù)輸入預(yù)先生成的卷積神經(jīng)網(wǎng)絡(luò)模型,經(jīng)由所述卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別出所述圖像數(shù)據(jù)中所包含的一個(gè)或多個(gè)運(yùn)算關(guān)系類型,以及,根據(jù)所述一個(gè)或多個(gè)運(yùn)算關(guān)系類型將所述圖像數(shù)據(jù)劃分后得到的一個(gè)或多個(gè)特征區(qū)域。
在本發(fā)明實(shí)施例中,本發(fā)明實(shí)施例可以將接收的圖像數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)模型可以識(shí)別出圖像數(shù)據(jù)中包含的一個(gè)或多個(gè)運(yùn)算關(guān)系類型,即識(shí)別出與圖像數(shù)據(jù)中的數(shù)學(xué)公式信息匹配的一個(gè)或多個(gè)運(yùn)算關(guān)系類型。
具體的,卷積神經(jīng)網(wǎng)絡(luò)模型可以采用如下方式識(shí)別出圖像數(shù)據(jù)中所包含的一個(gè)或多個(gè)運(yùn)算關(guān)系類型:
分別采用預(yù)置的多種運(yùn)算關(guān)系類型的權(quán)重系數(shù)作為卷積核,對(duì)所述圖像數(shù)據(jù)進(jìn)行卷積操作,得到所述圖像數(shù)據(jù)在各個(gè)運(yùn)算關(guān)系類型中的概率;基于所述圖像數(shù)據(jù)在各個(gè)運(yùn)算關(guān)系類型中的概率,確定所述圖像數(shù)據(jù)中所包含的一個(gè)或多個(gè)運(yùn)算關(guān)系類型。
在本發(fā)明實(shí)施例中,將圖像數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò)模型之后,卷積神經(jīng)網(wǎng)絡(luò)模型可以采用卷積核對(duì)圖像數(shù)據(jù)進(jìn)行卷積操作,經(jīng)過(guò)多層卷積核、池化和softmax分類器,得到圖像數(shù)據(jù)在各個(gè)運(yùn)算關(guān)系類型中的概率,從而確定圖像數(shù)據(jù)中所包含的一個(gè)或多個(gè)運(yùn)算關(guān)系類型。
實(shí)際上,圖像數(shù)據(jù)由多個(gè)區(qū)域組成,卷積神經(jīng)網(wǎng)絡(luò)模型可以分別采用每個(gè)運(yùn)算關(guān)系類型的權(quán)重系數(shù)對(duì)圖像數(shù)據(jù)進(jìn)行卷積一次,得到圖像數(shù)據(jù)中各個(gè)區(qū)域在每個(gè)運(yùn)算關(guān)系類型的權(quán)重系數(shù)進(jìn)行卷積的概率。
針對(duì)圖像數(shù)據(jù)的每個(gè)區(qū)域,從每個(gè)運(yùn)算關(guān)系類型的權(quán)重系數(shù)對(duì)其進(jìn)行卷積的概率中確定最大的概率,將最大的概率對(duì)應(yīng)的運(yùn)算關(guān)系類型作為該區(qū)域的運(yùn)算關(guān)系類型。
在確定圖像數(shù)據(jù)中所包含的一個(gè)或多個(gè)運(yùn)算關(guān)系類型之后,本發(fā)明實(shí)施例還可以按照運(yùn)算關(guān)系類型對(duì)圖像數(shù)據(jù)進(jìn)行劃分,在劃分后可以得到的每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的特征區(qū)域,如圖3可以分為三個(gè)特征區(qū)域,分別是:長(zhǎng)方形框中的數(shù)字或變量對(duì)應(yīng)的特征區(qū)域,圓角長(zhǎng)方形框中的分?jǐn)?shù)對(duì)應(yīng)的特征區(qū)域、橢圓形框中開(kāi)方對(duì)應(yīng)的特征區(qū)域。
步驟203,識(shí)別所述一個(gè)或多個(gè)特征區(qū)域,得到一個(gè)或多個(gè)公式元素;
在確定每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的特征區(qū)域之后,本發(fā)明實(shí)施例可以識(shí)別每個(gè)特征區(qū)域,得到與每個(gè)特征區(qū)域?qū)?yīng)的一個(gè)或多個(gè)公式元素。
其中,運(yùn)算關(guān)系類型可以具有對(duì)應(yīng)的結(jié)構(gòu)關(guān)系,如開(kāi)方具有左上半包含結(jié)構(gòu)關(guān)系、分?jǐn)?shù)具有上下結(jié)構(gòu)關(guān)系(即分式的上面為分子,分式的下面為分母)。
特征區(qū)域可以包括單一區(qū)域和/或混合區(qū)域,單一區(qū)域可以包括數(shù)字或變量對(duì)應(yīng)的特征區(qū)域,如“1”、“a”,混合區(qū)域可以包括數(shù)字或變量以及一個(gè)或多個(gè)至少以下運(yùn)算符對(duì)應(yīng)的特征區(qū)域:分?jǐn)?shù)運(yùn)算符、開(kāi)方運(yùn)算符、極限運(yùn)算符、乘積運(yùn)算符,如
應(yīng)用在本發(fā)明實(shí)施例中,則步驟203還可以包括如下子步驟:
子步驟s21,基于所述每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的結(jié)構(gòu)關(guān)系,將所述單一區(qū)域作為一個(gè)基本單元,以及,對(duì)所述混合區(qū)域進(jìn)行拆分,得到一個(gè)或多個(gè)基本單元;
在本發(fā)明實(shí)施例中,可以采用建立好的子結(jié)構(gòu)拆分算法對(duì)特征區(qū)域進(jìn)行拆分,使其能夠?qū)⒏魈卣鲄^(qū)域分解為一個(gè)或多個(gè)基本單元,即數(shù)字或變量對(duì)應(yīng)的區(qū)域,采用子結(jié)構(gòu)拆分算法進(jìn)行拆分具體可以如下:
針對(duì)單一區(qū)域,即數(shù)字或變量對(duì)應(yīng)的特征區(qū)域,可以不進(jìn)行拆分,直接將每個(gè)單一區(qū)域都作為一個(gè)基本單元。
針對(duì)混合區(qū)域,即數(shù)字或變量以及一個(gè)或多個(gè)運(yùn)算符對(duì)應(yīng)的特征區(qū)域,由于每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的混合區(qū)域都有特定的運(yùn)算符以及數(shù)字或變量的結(jié)構(gòu)關(guān)系,即一種位置上的關(guān)系,如“加法”為左中右結(jié)構(gòu),本發(fā)明實(shí)施例按照結(jié)構(gòu)關(guān)系對(duì)混合區(qū)域進(jìn)行拆分,得到一個(gè)或多個(gè)數(shù)字或變量對(duì)應(yīng)的區(qū)域,在將每個(gè)數(shù)字或變量對(duì)應(yīng)的區(qū)域作為一個(gè)基本單元。
子步驟s22,采用預(yù)設(shè)的光學(xué)字符識(shí)別算法識(shí)別所述一個(gè)或多個(gè)基本單元,得到一個(gè)或多個(gè)公式元素。
在本發(fā)明實(shí)施例中,可以采用建立好的光學(xué)字符識(shí)別(opticalcharacterrecognition,ocr)算法識(shí)別一個(gè)或多個(gè)基本單元,即識(shí)別數(shù)字或變量對(duì)應(yīng)的區(qū)域,得到一個(gè)或多個(gè)公式元素。
其中,ocr指電子設(shè)備檢查紙上打印的字符,通過(guò)檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程;即,針對(duì)印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件,并通過(guò)識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)一步編輯加工的技術(shù)。
作為一種示例,ocr算法可以包括采用cnn、knn(k-nearestneighbor,k最鄰近分類算法)、svm(supportvectormachine,支持向量機(jī))算法對(duì)混合區(qū)域進(jìn)行拆分為最小的基本單元,如取連續(xù)筆跡圖像的質(zhì)心,以該質(zhì)心為中心,找一條閉合曲線,能夠包圍當(dāng)前連續(xù)筆跡圖像上任意像素點(diǎn),且與混合區(qū)域的另一部分無(wú)交集,該曲線可能有無(wú)窮多個(gè),本發(fā)明實(shí)施例可以選取其中任意一條對(duì)混合區(qū)域進(jìn)行拆分并識(shí)別。
其中,knn算法的核心思想是如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來(lái)決定待分樣本所屬的類別。knn方法在類別決策時(shí),只與極少量的相鄰樣本有關(guān)。由于knn方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來(lái)確定所屬類別的,因此對(duì)于類域的交叉或重疊較多的待分樣本集來(lái)說(shuō),knn方法較其他方法更為適合。
svm是通過(guò)一個(gè)非線性映射p,把樣本空間映射到一個(gè)高維乃至無(wú)窮維的特征空間中(hilbert空間),使得在原來(lái)的樣本空間中非線性可分的問(wèn)題轉(zhuǎn)化為在特征空間中的線性可分的問(wèn)題.簡(jiǎn)單地說(shuō),就是升維和線性化.升維,就是把樣本向高維空間做映射,一般情況下這會(huì)增加計(jì)算的復(fù)雜性,甚至?xí)稹熬S數(shù)災(zāi)難”,因而人們很少問(wèn)津.但是作為分類、回歸等問(wèn)題來(lái)說(shuō),很可能在低維樣本空間無(wú)法線性處理的樣本集,在高維特征空間中卻可以通過(guò)一個(gè)線性超平面實(shí)現(xiàn)線性劃分(或回歸).一般的升維都會(huì)帶來(lái)計(jì)算的復(fù)雜化,svm方法巧妙地解決了這個(gè)難題:應(yīng)用核函數(shù)的展開(kāi)定理,就不需要知道非線性映射的顯式表達(dá)式;由于是在高維特征空間中建立線性學(xué)習(xí)機(jī),所以與線性模型相比,不但幾乎不增加計(jì)算的復(fù)雜性,而且在某種程度上避免了“維數(shù)災(zāi)難”.這一切要?dú)w功于核函數(shù)的展開(kāi)和計(jì)算理論。
本發(fā)明實(shí)施例在充分利用cnn的圖像數(shù)據(jù)分類優(yōu)勢(shì)和ocr識(shí)別數(shù)字或變量的優(yōu)勢(shì),同時(shí)又考慮到了運(yùn)算關(guān)系類型的結(jié)構(gòu)關(guān)系,極大地減少了識(shí)別數(shù)學(xué)運(yùn)算符號(hào)可能帶來(lái)的識(shí)別錯(cuò)誤,子結(jié)構(gòu)拆分算法利用運(yùn)算關(guān)系類型的結(jié)構(gòu)關(guān)系,簡(jiǎn)單高效地拆分,識(shí)別的數(shù)字或變量,而運(yùn)算關(guān)系類型對(duì)應(yīng)的運(yùn)算符只需要將補(bǔ)充到識(shí)別的數(shù)字或變量對(duì)應(yīng)位置即可。
步驟204,結(jié)合所述一個(gè)或多個(gè)運(yùn)算關(guān)系類型,將所述一個(gè)或多個(gè)公式元素組織成與所述數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式。
在獲得與數(shù)學(xué)公式信息對(duì)應(yīng)的一個(gè)或多個(gè)公式元素之后,本發(fā)明實(shí)施例可以結(jié)合一個(gè)或多個(gè)運(yùn)算關(guān)系類型,將一個(gè)或多個(gè)公式元素組織成與數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式。
在本發(fā)明的一種優(yōu)選實(shí)施例中,步驟204還可以包括如下子步驟:
子步驟s31,基于所述每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的結(jié)構(gòu)關(guān)系,確定所述每個(gè)公式元素的位置信息;
由于每個(gè)運(yùn)算關(guān)系類型都具有對(duì)應(yīng)的結(jié)構(gòu)關(guān)系,本發(fā)明實(shí)施例可以基于每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的結(jié)構(gòu)關(guān)系,確定每個(gè)公式元素的位置信息,如圖3中“a”對(duì)應(yīng)的特征區(qū)域位于“+”對(duì)應(yīng)的特征區(qū)域的的左邊。
子步驟s32,將所述每個(gè)公式元素放置在所述每個(gè)公式元素的位置信息對(duì)應(yīng)的位置,得到與所述數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式。
在確定每個(gè)公式元素的位置信息之后,將每個(gè)公式元素放置在每個(gè)公式元素的位置信息對(duì)應(yīng)的位置,則可以得到與數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式,如圖3中,在識(shí)別“a”對(duì)應(yīng)的區(qū)域?yàn)樽兞俊癮”后,將變量“a”放置在加號(hào)“+”的左邊。
在本發(fā)明的一種優(yōu)選實(shí)施例中,子步驟s32還可以包括如下子步驟:
子步驟s3211,針對(duì)混合區(qū)域,確定混合區(qū)域?qū)?yīng)的公式元素,結(jié)合所述混合區(qū)域?qū)?yīng)的公式元素的位置信息以及所述混合區(qū)域所包含的運(yùn)算關(guān)系類型,將所述混合區(qū)域?qū)?yīng)的公式元素組織成子公式;
由于混合區(qū)域是數(shù)字或變量以及一個(gè)或多個(gè)運(yùn)算符對(duì)應(yīng)的區(qū)域,是相互嵌套的結(jié)構(gòu),混合區(qū)域可以包含多個(gè)運(yùn)算關(guān)系類型。
針對(duì)每個(gè)運(yùn)算關(guān)系類型,確定與其對(duì)應(yīng)的公式元素及公式元素的位置信息,按照運(yùn)算關(guān)系類型的結(jié)構(gòu)關(guān)系將公式元素組織成子公式。
子步驟s3212,針對(duì)單一區(qū)域,確定單一區(qū)域?qū)?yīng)的公式元素,將所述單一區(qū)域?qū)?yīng)的公式元素作為子公式;
由于單一區(qū)域是數(shù)字或變量對(duì)應(yīng)的特征區(qū)域,是組成數(shù)學(xué)公式最基本的結(jié)構(gòu),直接將單一區(qū)域?qū)?yīng)的公式元素作為組成數(shù)學(xué)公式的子公式。
子步驟s322,對(duì)所有特征區(qū)域?qū)?yīng)的子公式進(jìn)行組合,得到與所述數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式。
在獲得所有特征區(qū)域?qū)?yīng)的子公式之后,對(duì)子公式進(jìn)行組合,得到數(shù)學(xué)公式。在識(shí)別出數(shù)學(xué)公式之后,本發(fā)明實(shí)施例可以將數(shù)學(xué)公式進(jìn)行錄入并展現(xiàn)給用戶。
需要說(shuō)明的是,由于在手寫(xiě)的數(shù)學(xué)公式信息識(shí)別過(guò)程中,每個(gè)步驟處理都可能產(chǎn)生錯(cuò)誤,本發(fā)明實(shí)施例可以進(jìn)行集中的系統(tǒng)糾錯(cuò),對(duì)可能產(chǎn)生的各種錯(cuò)誤進(jìn)行邏輯關(guān)系的分析和糾正處理,也可以通過(guò)改善人機(jī)交互的方式來(lái)增加用戶的糾錯(cuò),提升識(shí)別的準(zhǔn)確性。
為了是本領(lǐng)域技術(shù)人員能夠更好地理解本發(fā)明實(shí)施例,以下通過(guò)一個(gè)例子對(duì)本發(fā)明實(shí)施例加以示例性說(shuō)明,但應(yīng)當(dāng)理解的是,本發(fā)明實(shí)施例并不限于此。
如圖4為用戶手寫(xiě)的數(shù)學(xué)公式,采用本發(fā)明實(shí)施例的識(shí)別過(guò)程如下:
1)將圖像數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò)模型;
2)采用卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)整個(gè)圖像數(shù)據(jù)進(jìn)行分類,確定標(biāo)“1”的特征區(qū)域?qū)儆诩臃愋?,?biāo)“2”的特征區(qū)域?qū)儆诜质筋愋?根式、數(shù)字或變量的分類過(guò)程類似,圖中未作標(biāo)識(shí));
3)對(duì)標(biāo)“1”的特征區(qū)域,按照加法類型對(duì)應(yīng)的“左中右”的結(jié)構(gòu)關(guān)系進(jìn)行拆分,如取“a”的質(zhì)心點(diǎn),作曲線“k1”,以“+”的質(zhì)心點(diǎn),作曲線“k2”,從而按曲線“k1”“k2”對(duì)圖像數(shù)據(jù)進(jìn)行拆分,得到基本單元“a”;
對(duì)分式類型、根式類型對(duì)應(yīng)的特征區(qū)域也進(jìn)行拆分,得到基本單元“2”、“x”;
4)對(duì)基本單元“a”、“2”、“x”采用ocr進(jìn)行識(shí)別,得到對(duì)應(yīng)的公式元素;
5)確定每個(gè)公式元素的位置信息,將公式元素重新組合成子公式,再將子公式組成數(shù)學(xué)公式,如下:
6)將數(shù)學(xué)公式返回用戶,供用戶選擇和糾錯(cuò)。
在本發(fā)明實(shí)施例中,通過(guò)接收輸入的包括手寫(xiě)的數(shù)學(xué)公式信息的圖像數(shù)據(jù),并確定與數(shù)學(xué)公式信息匹配的運(yùn)算關(guān)系類型,以及與每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的特征區(qū)域,識(shí)別特征區(qū)域而得到公式元素,最后結(jié)合運(yùn)算關(guān)系類型,將公式元素組織成與數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式,從而實(shí)現(xiàn)對(duì)手寫(xiě)數(shù)學(xué)公式的準(zhǔn)確識(shí)別,并且在識(shí)別過(guò)程中充分利用了數(shù)學(xué)公式的結(jié)構(gòu)性質(zhì),降低了字符識(shí)別的難度,優(yōu)化了整個(gè)識(shí)別過(guò)程的效果和流程,提升了對(duì)手寫(xiě)數(shù)學(xué)公式識(shí)別的精確性和識(shí)別速度,為用戶提供更加精準(zhǔn)、簡(jiǎn)便、快捷的數(shù)學(xué)公式輸入體驗(yàn)。
需要說(shuō)明的是,對(duì)于方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實(shí)施例并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明實(shí)施例,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作并不一定是本發(fā)明實(shí)施例所必須的。
參照?qǐng)D5,示出了本發(fā)明實(shí)施例的一種數(shù)學(xué)公式識(shí)別的裝置的結(jié)構(gòu)框圖,具體可以包括如下模塊:
接收模塊501,用于接收輸入的圖像數(shù)據(jù),所述圖像數(shù)據(jù)的內(nèi)容包括手寫(xiě)的數(shù)學(xué)公式信息;
確定模塊502,用于確定與所述數(shù)學(xué)公式信息匹配的一個(gè)或多個(gè)運(yùn)算關(guān)系類型,以及與每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的一個(gè)或多個(gè)特征區(qū)域;
識(shí)別模塊503,用于識(shí)別所述一個(gè)或多個(gè)特征區(qū)域,得到一個(gè)或多個(gè)公式元素;
組織模塊504,用于結(jié)合所述一個(gè)或多個(gè)運(yùn)算關(guān)系類型,將所述一個(gè)或多個(gè)公式元素組織成與所述數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式。
在本發(fā)明的一種優(yōu)選實(shí)施例中,確定模塊502可以包括如下子模塊:
模型處理子模塊,用于將所述圖像數(shù)據(jù)輸入預(yù)先生成的卷積神經(jīng)網(wǎng)絡(luò)模型,經(jīng)由所述卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別出所述圖像數(shù)據(jù)中所包含的一個(gè)或多個(gè)運(yùn)算關(guān)系類型,以及,根據(jù)所述一個(gè)或多個(gè)運(yùn)算關(guān)系類型將所述圖像數(shù)據(jù)劃分后得到的一個(gè)或多個(gè)特征區(qū)域。
在本發(fā)明的一種優(yōu)選實(shí)施例中,所述卷積神經(jīng)網(wǎng)絡(luò)模型可以采用如下方式識(shí)別出所述圖像數(shù)據(jù)中所包含的一個(gè)或多個(gè)運(yùn)算關(guān)系類型:
分別采用預(yù)置的多種運(yùn)算關(guān)系類型的權(quán)重系數(shù)作為卷積核,對(duì)所述圖像數(shù)據(jù)進(jìn)行卷積操作,得到所述圖像數(shù)據(jù)在各個(gè)運(yùn)算關(guān)系類型中的概率;基于所述圖像數(shù)據(jù)在各個(gè)運(yùn)算關(guān)系類型中的概率,確定所述圖像數(shù)據(jù)中所包含的一個(gè)或多個(gè)運(yùn)算關(guān)系類型。
在本發(fā)明的一種優(yōu)選實(shí)施例中,所述運(yùn)算關(guān)系類型具有對(duì)應(yīng)的結(jié)構(gòu)關(guān)系,所述特征區(qū)域包括單一區(qū)域和/或混合區(qū)域,所述識(shí)別模塊503可以包括如下子模塊:
基本單元獲得子模塊,用于基于所述每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的結(jié)構(gòu)關(guān)系,將所述單一區(qū)域作為一個(gè)基本單元,以及,對(duì)所述混合區(qū)域進(jìn)行拆分,得到一個(gè)或多個(gè)基本單元;
基本單元識(shí)別子模塊,用于采用預(yù)設(shè)的光學(xué)字符識(shí)別算法識(shí)別所述一個(gè)或多個(gè)基本單元,得到一個(gè)或多個(gè)公式元素。
在本發(fā)明的一種優(yōu)選實(shí)施例中,所述組織模塊504可以包括如下子模塊:
位置信息確定子模塊,用于基于所述每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的結(jié)構(gòu)關(guān)系,確定所述每個(gè)公式元素的位置信息;
公式元素放置子模塊,用于將所述每個(gè)公式元素放置在所述每個(gè)公式元素的位置信息對(duì)應(yīng)的位置,得到與所述數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式。
在本發(fā)明的一種優(yōu)選實(shí)施例中,所述公式元素放置子模塊可以包括如下單元:
子公式組織單元,用于針對(duì)混合區(qū)域,確定混合區(qū)域?qū)?yīng)的公式元素,結(jié)合所述混合區(qū)域?qū)?yīng)的公式元素的位置信息以及所述混合區(qū)域所包含的運(yùn)算關(guān)系類型,將所述混合區(qū)域?qū)?yīng)的公式元素組織成子公式;
子公式為單元,用于針對(duì)單一區(qū)域,確定單一區(qū)域?qū)?yīng)的公式元素,將所述單一區(qū)域?qū)?yīng)的公式元素作為子公式;
子公式組合單元,用于對(duì)所有特征區(qū)域?qū)?yīng)的子公式進(jìn)行組合,得到與所述數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式。
在本發(fā)明的一種優(yōu)選實(shí)施例中,所述卷積神經(jīng)網(wǎng)絡(luò)模型采用如下方式生成:
獲取樣本圖像數(shù)據(jù),所述樣本圖像數(shù)據(jù)包括多個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的樣本圖像數(shù)據(jù);分別對(duì)每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的樣本圖像數(shù)據(jù)進(jìn)行訓(xùn)練,得到卷積神經(jīng)網(wǎng)絡(luò)模型,所述卷積神經(jīng)網(wǎng)絡(luò)模型以每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的權(quán)重系數(shù)作為卷積核。
在本發(fā)明的一種優(yōu)選實(shí)施例中,所述數(shù)學(xué)公式信息的輸入方式至少包括:手寫(xiě)輸入設(shè)備、鼠標(biāo)輸入。
在本發(fā)明的一種優(yōu)選實(shí)施例中,所述單一區(qū)域包括數(shù)字或變量對(duì)應(yīng)的特征區(qū)域,所述混合區(qū)域包括數(shù)字或變量以及一個(gè)或多個(gè)至少以下運(yùn)算符對(duì)應(yīng)的特征區(qū)域:
分?jǐn)?shù)運(yùn)算符、開(kāi)方運(yùn)算符、極限運(yùn)算符、乘積運(yùn)算符。
在本發(fā)明實(shí)施例中,通過(guò)接收輸入的包括手寫(xiě)的數(shù)學(xué)公式信息的圖像數(shù)據(jù),并確定與數(shù)學(xué)公式信息匹配的運(yùn)算關(guān)系類型,以及與每個(gè)運(yùn)算關(guān)系類型對(duì)應(yīng)的特征區(qū)域,識(shí)別特征區(qū)域而得到公式元素,最后結(jié)合運(yùn)算關(guān)系類型,將公式元素組織成與數(shù)學(xué)公式信息對(duì)應(yīng)的數(shù)學(xué)公式,從而實(shí)現(xiàn)對(duì)手寫(xiě)數(shù)學(xué)公式的準(zhǔn)確識(shí)別,并且在識(shí)別過(guò)程中充分利用了數(shù)學(xué)公式的結(jié)構(gòu)性質(zhì),降低了字符識(shí)別的難度,優(yōu)化了整個(gè)識(shí)別過(guò)程的效果和流程,提升了對(duì)手寫(xiě)數(shù)學(xué)公式識(shí)別的精確性和識(shí)別速度,為用戶提供更加精準(zhǔn)、簡(jiǎn)便、快捷的數(shù)學(xué)公式輸入體驗(yàn)。
對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明實(shí)施例的實(shí)施例可提供為方法、裝置、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明實(shí)施例可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明實(shí)施例可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本發(fā)明實(shí)施例是參照根據(jù)本發(fā)明實(shí)施例的方法、終端設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備上,使得在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
盡管已描述了本發(fā)明實(shí)施例的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明實(shí)施例范圍的所有變更和修改。
最后,還需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者終端設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者終端設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者終端設(shè)備中還存在另外的相同要素。
以上對(duì)本發(fā)明所提供的一種數(shù)學(xué)公式識(shí)別方法和裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。